DS2 on tooling and data mining

Tooling en data mining vullen elkaar perfect aan

Samenwerking tussen de twee disciplines maakt het werk alleen maar interessanter.

Om als bedrijf de toekomstige vraag van de markt goed te kunnen voorspellen, heb je allereerst betrouwbare brondata nodig en daarnaast de juiste kennis en tools om er via data mining technieken accurate voorspellingen op te doen. Planning en forecasting gaan daarom hand in hand met IT.

Jurgen Maas en Tom Vaessen zijn beide gespecialiseerd in het stroomlijnen van bedrijfsprocessen. Maar ze benaderen die processen wel vanuit heel verschillende invalshoeken. Jurgen bekijkt de processen vanuit de tooling die erbij wordt ingezet. Tom is data scientist en legt de nadruk dus vooral op data en hoe je daar op een slimme manier de toekomst mee kunt voorspellen. Beiden werken ze in het Data Science & Solution team van EyeOn, waar de twee manieren van werken elkaar perfect aanvullen.

Excel bron van problemen

Nagenoeg elk bedrijf heeft een planning en forecasting proces, geeft business solutions consultant Jurgen Maas aan. Alleen is dat volgens hem niet in elke organisatie even professioneel en gestructureerd opgezet. Zo wordt er vooral veel gebruik gemaakt van Excel-spreadsheets, zelfs bij grote internationale bedrijven. Een spreadsheet biedt namelijk veel flexibiliteit en je kunt snel iets opzetten.

Maar helaas zorgt Excel ook voor veel problemen, stelt hij. “Vooral bij langlopende processen wordt het steeds moeilijker om te achterhalen wat nog de echte waarheid is.” Het is zijn taak om precies te achterhalen hoe het proces loopt en hoe je er voor kunt zorgen dat het planning- en forecasting-proces wel betrouwbaar wordt.

Flexibiliteit als valkuil

In de loop van de tijd worden er talloze kopieën van spreadsheets gemaakt, vertelt Jurgen. “Dus wat zijn dan de echte brongegevens, wie is de beheerder of eigenaar van de data en wie hebben het ondertussen allemaal gebruikt en aangepast? Je weet het gewoon niet meer.” Want iedereen kan een spreadsheet aanpassen en vervolgens weer doorsturen naar anderen, waarna dit proces zich herhaalt en herhaalt. “De flexibiliteit van Excel-spreadsheets is daarmee meteen ook een grote valkuil.”

De grootste uitdaging is dan ook om de data betrouwbaar te krijgen. “Als eerste fase kun je het proces al flink professionaliseren door een Access/SQL-database in te zetten, zodat alle data tenminste centraal wordt opgeslagen. Excel wordt dan nog steeds als front-end gebruikt, maar het proces wordt hiermee zoveel mogelijk geautomatiseerd, gestructureerd en zichtbaar gemaakt.”

Data en medewerkers spelen grootste rol

Maar er zijn nog andere uitdagingen. Zo hebben grote bedrijven vaak divisies overgenomen, zijn zelf overgenomen, of zijn samengegaan. Hierdoor is een uitgebreid landschap ontstaan dat bestaat uit losse silo’s. “Bij de meeste bedrijven waar ik kom klopt de data daardoor simpelweg niet,” benadrukt hij. “Afdelingen zoals marketing, sales en operations zijn elk verantwoordelijk voor het eigen deel. Data en tooling wordt niet gedeeld, waardoor er veel verschillende data is die niet overeenkomt. Het kost veel tijd om alles weer op één lijn te krijgen, te bepalen wie voor welke data verantwoordelijk is en hoe die data vervolgens gebruikt moet worden.”

Volgens Jurgen Maas is het essentieel dat de medewerkers meegenomen worden in dit veranderingsproces. “Vaak werken mensen al twintig jaar op een bepaalde manier en nu moeten ze ineens iets nieuws gaan doen”, vertelt hij. “De ene persoon staat hier meer open voor dan een ander.” Door die aandacht voor het change managementproces speelt het menselijke element een grote rol in zijn werk. “Het merendeel van de tijd, zo’n zestig procent, gaat zitten in de data en in het menselijke aspect. De resterende veertig procent van de tijd is voor het implementeren van tooling.”

Meerwaarde dankzij data science

Deze eerste fase vormt de makkelijkste en snelste manier om de quick wins te laten zien en iedereen aan boord te krijgen. “Het neemt alleen nog niet de echte problemen weg,” benadrukt hij. “Dat gebeurt pas in de volgende fase. Want door professionele tools aan te schaffen en deze te modelleren, kom je tot een strakkere structuur en een meer projectgebaseerde implementatie. Wat wil je zien, hoe wil je het zien, waar komt de data vandaan, wie heeft welke rechten, op welke manier ververs je de data, dat soort dingen. Change management speelt hierin een nog grotere rol dan in de eerste fase.”

En in die fase werkt Jurgen onder andere heel nauw samen met datascientist Tom Vaessen. Er zit een heel duidelijke wisselwerking tussen hun vakgebieden waardoor ze perfect op elkaar aansluiten en elkaar nodig hebben. Zo zorgt Jurgen ervoor dat de data klopt en bereikbaar is, en Tom helpt het proces doorgronden door de data te analyseren.

Met geavanceerde data mining-technieken kunt je namelijk het planning- en forecastingproces waardevoller en betrouwbaarder te maken. “Door diep in de data te duiken en te kijken of je in de enorme brei van gegevens nieuwe informatie, patronen en verbanden kunt ontdekken die nog niet eerder door gebruikers gezien zijn”, stelt Tom.

Toon de essentie

En die ontdekkingen zijn van belang voor het hele bedrijf. Daarom is het belangrijk om, als je als data scientist iets hebt ontdekt, je ervan te verzekeren dat het geen eenmalig iets is, maar een uitzonderlijke gebeurtenis waarmee het planning- en forecast-proces verder verbeterd kan worden. Daarna moet je ervoor zorgen dat de mensen ook begrijpen wat je hebt gevonden. Tom: “Zodra je de historische gegevens hebt geëxtrapoleerd naar de toekomst, is het de grote uitdaging hoe je aan de gebruikers presenteert wat je hebt gevonden.”

Want je hebt altijd met enorme hoeveelheden datapunten en honderden grafieken te maken. “Daarom gebruik ik story telling-technieken om de essentie te laten zien van wat ik heb gevonden. Daarmee toon ik alleen de belangrijke uitzonderingen waarop we ons willen focussen. Dit op een goede manier overbrengen naar de beslissers van de organisatie speelt een steeds belangrijkere rol bij het werk als data scientist.”

Vind de echte oorzaak

Zo ontdekte Vaessen bijvoorbeeld waarom bepaalde productpromoties van een levensmiddelenproducent uitzonderlijk succesvol waren. “Het kwam niet door de hoogte van de korting die werd geboden, terwijl dat vaak het eerste is waaraan je denkt. Uit data analyses bleek het aan de gebruikte schappen in de supermarkten te liggen.”

Een promotie kent al snel vijftig verschillende eigenschappen, zoals tijdsduur, combinaties met andere producten en de hoogte van de korting. “Die eigenschappen kun je natuurlijk allemaal individueel gaan bestuderen om de oorzaak te vinden, maar als je hier slimme data science-technieken op loslaat, komen de uitzonderingen waarnaar je op zoek bent als vanzelf bovendrijven.”

De waardevolste uitzonderingen

Het is dus de kunst om via data mining-technieken de waardevolste uitzonderingen te vinden en deze data vervolgens te extrapoleren naar de toekomst. “Hoe zorg je er in dit geval voor dat je een piek uit een eerdere promotie kunt gebruiken om een piek te voorspellen in een toekomstige promotie.”

Naast informatie van het bedrijf zelf, moet je hiervoor vaak ook zelf op zoek naar relevante aanvullende informatie. “Denk aan weereffecten of economische groeicijfers. Die verklaren misschien deels de piek die je ziet. Je moet dus ook een beetje speuren en dat maakt het nog eens extra leuk en uitdagend.”

Forecasting en data science

De statistisch verkregen data kun je als een soort eerste voorzet weer terugvoeren naar de planning- en forecastingtool. Tom: “Op die manier kunnen wij alvast verwachtingspatronen laten zien die wij op basis van statistiek en logica herkend hebben. Vervolgens is het aan de gebruikers om te beoordelen of en hoe ze dit meenemen in hun planning en forecasting. Ze kunnen zich in ieder geval meteen focussen op de echt belangrijke uitzonderingen.”

Forecasting en data science komen zo mooi samen. Jurgen: “Vanuit de tooling gaat de daadwerkelijke verkoopinformatie straks ook weer terug om te worden geanalyseerd met data science-technieken. Zodat we te weten komen hoe nauwkeurig onze algoritmes zijn geweest en het proces nog verder verbeterd kan worden. Zo is de cirkel rond.”