Datakwaliteit – de gouden weg naar datagedreven marketing

Henrica Westhoeve
12 december 2022 - Leestijd 8 minuten

Slechte data. Het lijkt erop dat dit de moderne schurk is die ons ervan weerhoudt een echt data gestuurde bedrijfsomgeving te hebben. Het blijft maar opduiken in gesprekken, rapporten, planning en prognoses. Het lijkt gemakkelijk en eenvoudig om slechte data de schuld te geven voor het niet bereiken van het doel.

Volgens een studie in de Harvard Business Review verspilt de helft (50%) van de mensen die met gegevens werken hun tijd met het zoeken naar gegevens, het vinden en corrigeren van fouten en het zoeken naar bevestigende bronnen voor de gegevens die zij niet vertrouwen.

Als we slechte data aanwijzen als de reden of de grootste belemmering is voor het bereiken van onze doelstellingen, dan is dat slechts een kleine greep uit een symptoom dat vele oorzaken kan hebben.

Wat zijn slechte gegevens?

Ten eerste, wat zijn slechte gegevens, vaak omschreven als “vuile” of “malafide” data? Simpelweg: gegevens die fouten bevatten, zoals fouten in spelling of interpunctie, onvolledige gegevens, verouderde gegevens, dubbele instanties in de database en onjuiste gegevensassociaties. Slechte gegevens zijn gegevens die teams niet vertrouwen, of erger nog, het zijn gegevens die we vertrouwen maar niet zouden moeten vertrouwen.

Maar, wat veroorzaakt slechte data? Een heleboel dingen. Slechte gegevens zijn een resultaat of een manifestatie van een reeks gebeurtenissen die ze veroorzaken. We zetten de gebeurtenissen op een rijtje, samen met de oorzaken en mogelijke stappen voor een snelle oplossing.

Onvolledige gegevens

Oorzaak: Dit kan in een paar vormen voorkomen: volledig ontbrekende of gedeeltelijk ingevulde gegevens. Onvolledigheid beperkt niet alleen de inzichten die we uit de gegevens kunnen halen (zoals rapportage en analytics), maar beperkt ook eventuele datagestuurde operaties (zoals AI/ML). Oplossing: Implementeer “gatekeepers” voor het creëren van gegevens die de creatie van onvolledige gegevens tegenhouden. Help klanten (en je bedrijf) bij het invullen van formulieren formulieren bijvoorbeeld met een typeahead of auto-complete functionaliteit die leunt op een robuuste set externe referentiegegevens om het formulier in te vullen. Oefen op governance om ervoor te zorgen dat verplichte velden op intelligente wijze worden ingevuld door middel van datakwaliteitscontroles.

Bekijk: Dataxess voor het verrijken en onderhouden van je data

Dubbele gegevens

Oorzaak: Hiervan is sprake wanneer records onbedoeld kenmerken delen met andere records in de database. Wanneer er sprake is van dubbele gegevens in een data-ecosysteem, kunnen de gevolgen onder meer zijn dat bij het aggregeren van gegevens te veel gegevens worden geteld, waardoor onjuiste waarden voor rapporten en analyses worden geproduceerd. Hierdoor worden inspanningen verspild en ontstaat er verwarring over de getallen. Bedrijfsbeheer wordt een steeds grotere uitdaging naarmate het effect van dubbele gegevens groter wordt.

Oplossing: Je wilt weten welke “duplicaten” je wilt houden, laten gaan of archiveren. Dit beslis je door middel van clustering (match/merge) technieken. Breng soortgelijke versies van deze records samen als onderdeel van dat cluster. Kies de beste versie als hoofdentiteit en de rest als onderdelen van die groep. Dit is een systematische manier om de gegevens te ontdubbelen. Aangezien niet alle duplicaten gelijk zijn, wil je er misschien een paar behouden (vanwege zakelijke of wettelijke behoeften) en ze binnen een beheersbaar cluster houden. Dit is het concept van een gouden record.

Verschillende datasilo’s

Oorzaak: Het is bijna onvermijdelijk om veel verschillende bronsystemen te hebben. Uit een Dun & Bradstreet-studie uit 2021 bleek zelfs dat de gemiddelde verkoop- en marketingtechnologie minstens 10 tools bevat. De complexe business arena die we nu hebben dwingt ze praktisch af. Al deze tools beheren en bijhouden kan een ontmoedigende taak zijn. Hoewel ze misschien niet dezelfde processen delen, zouden de gegevens zich moeten verhouden tot andere datasets. Je wilt immers overal uniforme data. De concepten van datawarehousing, data lakes en nu data meshes zijn bedacht om het beheer van gegevens afkomstig uit verschillende systemen mogelijk en schaalbaar te maken.

Oplossing: De voor de hand liggende reactie is het aanleggen van een data lake, maar het is niet voldoende om alle gegevens op één plaats onder te brengen. Zonder de gegevens die het data lake binnenkomen te beheren en te kwalificeren, kan je prachtige data lake eerder een datamoeras worden. Naast het technisch beveiligen van de gegevensstroom via verbindingen, zoals API’s, moet je nadenken over het beheren van je gegevens in het data lake met behulp van clustermethoden om gegevens uit verschillende bronnen in een gemeenschappelijke omgeving onder te brengen. Als je in staat bent een gouden record te creëren door soortgelijke entiteiten te clusteren, krijg je een beter inzicht in overlappende en nieuwe gegevens. Met een match/merge engine kun je bestaande en nieuwe gegevensbronnen in je data lake beter beheren.

Verval van gegevens

Oorzaak: Van alle business-to-business stamgegevens lijken contactgegevens aantoonbaar het snelst te vervallen. Op sommige gebieden kunnen gegevens jaarlijks met 34% in verval raken. Dit kan zeer alarmerend zijn voor datagestuurde organisaties, die hun inzichten voor de besluitvorming uit gegevens halen. Deze statistiek kan behoorlijk ontmoedigend zijn, aangezien we steeds afhankelijker worden van gegevens om onze bedrijven te leiden. De huidige economische situatie maakt het veel nijpender om aandacht te besteden aan het verval van gegevens. Bedrijven die failliet gaan, toeleveringsproblemen en The Great Resignation zijn voorbeelden die complexiteit toevoegen aan de verwachte fusies, overnames en afstotingen die de markt ervaart. Hoe kun je ervoor zorgen dat je gegevens relevant blijven?

Oplossing: Gegevensverrijking. Je moet de gegevens periodiek kunnen verrijken met een betrouwbare externe referentiegegevensbron. Zoals een oud gezegde uit 1914 luidt: gooi het kind niet met het badwater weg. Het is zo gemakkelijk om uw huidige datamiddelen als ondermaats te bestempelen door hun slechte prestaties of door het horen van anekdotes van degenen die afhankelijk zijn van de middelen. Werk samen met externe bronnen of derden om uw bestaande contactgegevens van actuele attributen te voorzien. Zoals hierboven besproken, worden we geconfronteerd met gegevensverval met 34% of meer per jaar. U hebt een effectief verrijkingsschema nodig dat gekoppeld is aan de drempel van uw organisatie voor de nauwkeurigheid van gegevens. Het ad hoc uitvoeren ervan kan een slechte dienst bewijzen aan uw gebruikers, omdat het niet schaalbaar is. Zorg voor een verrijkingsstrategie en een schema en communiceer met uw belanghebbenden.

Bekijk: Dataxess voor het verrijken en onderhouden van je data

Conclusie: een pleidooi voor data governance

Deze aanbevelingen en best practices zijn slechts stukjes van een grotere puzzel. Er is een sterke behoefte aan data governance om beleid in te stellen en zich te houden aan datakwaliteitsnormen zodat de bloeding van ondermaatse gegevens in je data-gestopt worden. Het goede nieuws is dat veel van de voorgestelde oplossingen haalbaar zijn – en op schaal kunnen worden geautomatiseerd – met AI en ML.

De bovenstaande aanbevelingen zijn, naast het begrijpen waar, wanneer en hoe je deze stappen moet implementeren,  cruciaal voor je datastrategie. De oplossing en de hoofdoorzaak zijn hetzelfde: data governance. Het is een functie waar we niet meer zonder kunnen. Onze toenemende afhankelijkheid van gegevens is daar het perfecte voorbeeld van.

Interesse gewekt?

Deel via social media

Interesse gewekt?

Vul je gegevens in of bel ons direct.
We nemen binnen één werkdag contact met je op.
Of bel ons direct
Nederland (afdeling verkoop) +31 (0)10 322 03 04 België +32 (0)2 765 00 21

Whitepaper

Credit Monitoring

Kansen voor jouw organisatie in beeld

Een kredietcheck bij klantacceptatie is waardevol, maar ook meteen verouderd. Het échte kredietrisico begint eigenlijk juist pas nadat je een klant hebt geaccepteerd. De oplossing: monitor de financiële gezondheid van je klanten real-time.

Pdf van 16 pagina’s, 0,4 MB
Credit Monitoring

Wil je meer lezen over creditmanagement en compliance?

Een bedrijf of D-U-N-S nummer opzoeken?

Een artikel of onderwerp opzoeken?

Suggesties

Schrijf je nu in!

Ja, ik wil elke maand op de hoogte worden gebracht van trends & ontwikkeling rondom Credit Risk, Compliance, Master Data, Supply Chain en Sales & Marketing.

Je keuze voor

quizz outcome