“Als jouw AI iets doms doet, doet hij dat namens jou” | Leo Visser over het belang van goede datasets
AI-consultant en Microsoft MVP Leo Visser schuift aan op ons kantoor in Utrecht, nadat hij het halve land door is geweest voor klanten en conferenties. Ondanks zijn volle agenda spreekt AI-consultant Leo Visser met opvallende rust en helderheid over een onderwerp dat actueler is dan ooit: datakwaliteit in het tijdperk van AI. “Een goede dataset is harder dan ooit nodig,” zegt hij. “Juist omdat AI je fouten niet corrigeert, maar vergroot.” In dit interview deelt hij zijn visie en geeft hij concrete handvatten voor organisaties die datakwaliteit serieus willen nemen.
De afhankelijkheid van data is enorm toegenomen. Waar je vroeger een foute Excel-kolom nog kon corrigeren voor het rapport de deur uit ging, neemt AI die fout nu zonder aarzeling mee in z’n advies, z’n tekstsuggesties of zelfs z’n beslissingen.
Waarom datakwaliteit nu belangrijker is dan ooit
En dat kan verstrekkende gevolgen hebben. Leo noemt een praktijkvoorbeeld: een klant gebruikte een AI-tool om automatisch offertes op te stellen. De tool haalde de informatie uit eerdere documenten, waaronder een verouderde offerteversie waarin het aantal benodigde uren voor een project twintig uur te laag stond. Omdat er geen goed versiebeheer was, viel dit niemand op. De foutieve offerte werd verstuurd, het project werd uitgevoerd, en de organisatie moest die extra twintig uur zelf betalen.
“Dat was gewoon te voorkomen geweest,” zegt Leo, “met iets simpels als goed versiebeheer en controle op welke documenten de AI gebruikt.
Toch zijn het niet alleen dit soort praktische problemen die de ernst van slechte datakwaliteit blootleggen. De risico’s zijn soms groter en dieper geworteld. Denk aan bias die onbewust wordt overgenomen uit datasets die al jarenlang dezelfde blinde vlekken bevatten.
AI vergroot je fouten – tenzij jij het voorkomt
“Wat AI doet, is herhalen wat het eerder heeft gezien,” legt Leo uit. “Als die input bevooroordeeld of incompleet was, dan blijft AI dat patroon volgen. Niet omdat het daar bewust voor kiest, maar omdat het simpelweg leert op basis van wat het aangeleerd krijgt.”
Bias zit niet alleen in de zichtbare uitersten. Niet elke fout springt direct in het oog. Soms zit het in wat er ontbreekt: een groep die telkens buiten beeld blijft, een parameter die nooit is meegenomen, een regio die structureel ondervertegenwoordigd is. “Hoe subtieler de missende informatie,” zegt Leo, “hoe lastiger het is om het op te vangen. Juist omdat je vaak niet merkt dat er iets mist.”
Daarom is het zo belangrijk dat organisaties niet klakkeloos vertrouwen op de output van hun AI-systemen. Er moet altijd een laag menselijke controle zijn. Denk aan steekproeven, testvragen en regressietests (vergelijking met eerdere uitkomsten).
Leo: “Klinkt misschien technisch, maar het gaat vooral over gezond verstand. Stel continu die controlevraag: Klopt wat hier staat? Is dit actueel? Hebben we de juiste bronnen gebruikt? Dat doen we bij softwaretesten toch ook? Regelmatig even checken of alles nog werkt zoals het hoort, ook na een update.”
“Als jouw AI iets doms doet, doet hij dat namens jou” – Leo Visser
In gesprek met Leo Visser
Tijd om dieper in te zoomen: hoe pak je dit als organisatie concreet aan? Leo Visser deelt zijn belangrijkste inzichten.
Leo, veel organisaties worstelen met de vraag: hoe zorg je dat je dataset voldoet aan wet- en regelgeving zoals de AVG of AI Act?
“Eigenlijk had dit er al lang moeten zijn,” zegt Leo meteen. “We praten nu over AI alsof dat de aanleiding is, maar in feite gaat het om goed datamanagement. De komst van AI maakt het alleen urgenter. Fouten die eerder in een spreadsheet zaten, worden nu doorgegeven in automatisch genomen beslissingen door AI.”
Maar wat moet je dan concreet regelen als organisatie?
“Begin met verantwoordelijkheid. Stel een AI-officer aan. Iemand die begrijpt hoe AI werkt, maar ook hoe wet- en regelgeving in elkaar zit. Die moet samenwerken met compliance, ict, security. En daarnaast zorgen dat die datasets op orde zijn.”
Die rol is strategisch volgens Leo: “Het gaat niet alleen om compliance of vinkjes zetten, maar om het herkennen van risico’s, het kunnen bijsturen van AI-processen en het bewaken van ethiek en transparantie.”
Leo noemt ook tooling. “Gebruik bijvoorbeeld Microsoft Purview om inzicht te krijgen waar gevoelige data staat, wie erbij kan en of die data nog actueel is. AI-systemen kunnen namelijk toegang hebben tot documenten waarvan medewerkers zich niet eens bewust zijn dat ze die mogen inzien.
Denk aan oude of verkeerd gedeelde versies van projectplannen met gevoelige informatie die jarenlang ongezien bleven. Waar mensen beperkt zijn tot wat ze in mappen vinden, ziet AI alles waar technisch toegang toe is. Daarom is het belangrijk om toegangsbeheer en versiebeheer strak te regelen, en controlelagen in te bouwen. Niet alles kan door een systeem automatisch worden afgevinkt.”
Is dat niet veel werk voor iets wat misschien niet eens fout gaat?
Leo lacht. “Juist als het fout gaat, zie je hoe belangrijk dit is. Eén fout advies van een AI-tool omdat hij een verouderd document gebruikt, kan een contract of project flink onderuithalen. En dat is dan nog zonder dat er juridische of ethische issues zijn.”
Dus je hebt tooling nodig, processen, mensen… Is het te managen?
“Absoluut. Maar je moet er wel voor openstaan. Zorg dat je datasets regelmatig getest worden, een beetje zoals een APK-keuring voor je auto. Is de data nog up-to-date? Zit er geen vooringenomenheid in?
Gebruik metadata en documenteer de redenering van AI. Metadata is extra informatie die uitlegt waar data over gaat. Het helpt AI om data beter te begrijpen en onderscheid te maken tussen betrouwbare en onbetrouwbare bronnen.
Maar alleen metadata is niet genoeg. Door AI expliciet te vragen om naast een antwoord ook de redenatie of onderbouwing te geven, kun je beter beoordelen of het antwoord gebaseerd is op de juiste data. Dat maakt AI-systemen transparanter en ‘explainable’ (begrijpelijk en uitlegbaar in hoe en waarom bepaalde keuzes worden gemaakt). Dat is belangrijk voor intern toezicht en externe verantwoording. Dit is nu zelfs verplicht volgens de AI-wetgeving.”
En wat als je wilt toetsen of een dataset überhaupt geschikt is voor een AI-toepassing?
“Steekproeven blijven onmisbaar. Stel de AI vragen waarvan je het antwoord weet en kijk of hij de juiste antwoorden geeft. Test daarnaast met oude en nieuwe data en kijk of er regressie is. En zorg dat iemand – een mens dus – meekijkt. Technologie helpt, maar mensen begrijpen de details beter.”
Wat zijn voor jou de belangrijkste kenmerken van een echt goede dataset?
“Accuraat, actueel, consistent. Maar ook: compleet en relevant. Je kunt een dataset hebben die technisch klopt, maar totaal onbruikbaar is omdat de context mist. Een goede datastructuur helpt daarbij enorm: zorg dat de opbouw logisch en begrijpelijk is, zodat systemen en mensen weten waar welke data te vinden is. Dat kan bijvoorbeeld via goed ingestelde agents of instructies binnen AI-systemen.
Vermijd daarnaast duplicaten en zorg dat oude of irrelevante data niet wordt geïndexeerd als dat niet wenselijk is. Denk bijvoorbeeld aan een intern nieuwsarchief dat na verloop van tijd wel toegankelijk moet blijven voor medewerkers, maar buiten het bereik van AI-systemen valt. Zo houd je controle over wat AI-modellen gebruiken en voorkom je dat verouderde informatie de uitkomsten beïnvloedt.
Of je informatie juist wel of niet beschikbaar stelt aan AI, hangt sterk af van het doel van je systeem: wil je leren van het verleden of alleen het actuele beeld tonen?”
Wat kan er misgaan als je dit niet doet?
“Te veel om op te noemen. Van verkeerde klantadviezen tot discriminerende beslissingen. Bias bijvoorbeeld ontstaat niet doordat AI ‘slecht’ is, maar doordat de input niet representatief is.
En vergeet versiebeheer niet: als er meerdere documenten rondslingeren en AI pakt de verkeerde, dan kan de schade flink zijn, zoals het voorbeeld met de verouderde offerte laat zien. Soms zelfs juridisch. Zorg dat je actief de risico’s herkent, ingrijpt waar nodig en AI binnen de kaders houdt. ”
Transparantie lijkt daar een sleutel in.
“Zeker. Laat zien dat je AI gebruikt. Laat weten waar de data vandaan komt. Geef gebruikers grip. En train mensen. Niet alleen op hoe ze een tool moeten bedienen, maar juist op hoe ze AI kunnen bevragen, herkennen wanneer het misgaat en weten wanneer ze moeten ingrijpen.”
Behandel het net als phishingtraining. Laat mensen bijvoorbeeld oefenen met scenario’s zoals het genereren van AI-plaatjes van een ‘dokter’ en bespreek samen: zie je bias? Wat valt op in geslacht, huidskleur, setting? Zo ontwikkelen je medewerkers een kritische blik.”
Wat raad jij organisaties concreet aan die hiermee aan de slag willen?
“Maak het niet te groot, maar ook niet te licht. Begin met deze stappen:
- Benoem een AI-officer die eindverantwoordelijk is voor datasetkwaliteit en periodieke controles uitvoert. Deze persoon werkt nauw samen met ict en Compliance om te zorgen dat data voldoet aan wet- en regelgeving.
- Gebruik Responsible AI. Werk met AI-systemen die ingebouwde controles bevatten om ongepaste of onjuiste informatie te filteren.
- Zorg voor goede data governance met tools zoals Purview. Zo krijg je inzicht in hoe data door de organisatie stroomt en waar het wordt gebruikt.
- Controleer je versiebeheerprocedures en zorg ervoor dat oude versies van bestanden niet door AI-systemen worden geïndexeerd, zodat alleen relevante en actuele data beschikbaar is.
- Zorg voor transparantie in AI-systemen door de redenering of argumentatie van de AI op te halen en beoordeelbaar te maken.
- Train gebruikers met extra aandacht voor het valideren van bronnen en leer hen om te controleren of de juiste en meest actuele bestanden worden gebruikt
- Voer periodieke testen en audits uit. Controleer regelmatig of datasets nog actueel, compleet en betrouwbaar zijn. En of je AI nog steeds doet wat hij moet doen.
Leo pauzeert even. “Kijk, AI is een geweldige versneller. Maar het is geen toverstaf. Als de input slecht is, vergroot AI vooral het probleem. Als de basis goed is, kan het fantastische dingen doen.”
AI als kanshebber
AI biedt ongekende kansen – maar alleen als de basis klopt. Slechte data leidt tot slechte beslissingen, en zonder menselijke controle vergroot AI de impact van fouten. Zorg dus voor verantwoordelijkheid, transparantie, periodieke toetsing en gebruikers die weten wat ze doen. Dan biedt het prachtige kansen.
Meer lezen over dit onderwerp:
Misschien vind je dit leuk
Anderen hebben deze artikelen gelezen

Big data: 6 stappen om jouw data optimaal in te zetten

Hoe de onervarenheid van jong talent je verder helpt
