Je AI-strategie staat of valt met je datafundament

Vorig jaar kreeg ik een telefoontje dat ik sindsdien in allerlei varianten heb horen terugkomen. “Peter, we hebben alles gedaan wat logisch leek. Azure OpenAI, Copilot Studio, de juiste richtlijnen gevolgd. En toch blijft de output ondermaats. Waar loopt het fout?”

Na een half uur doorvragen was het duidelijk: het probleem zat niet in het model, maar in de data. Verouderde SharePoint-documenten, ERP-exports in Excel en een kennisbank met verschillende definities naast elkaar. Alles was er. Alleen werkte niets echt samen.

Het model deed wat het moest doen. De data niet. Als Data & Analytics Business Lead bij Xylos zie ik dit patroon in bijna elke organisatie die met AI aan de slag wil. Daarom gaat dit artikel over de datalaag: het fundament dat veel minder aandacht krijgt dan het model, maar veel meer bepaalt.

Artificiële IntelligentieData & AnalyticsManaged Services

Dit is het derde artikel in onze blogreeks over de bouwstenen van een schaalbare AI-aanpak in organisaties. Eerst keken we naar AI-wildgroei in organisaties. Daarna naar de rol van Power Platform als brug naar gecontroleerde AI-integratie. Dit keer gaat het over het fundament onder die aanpak: de datalaag.

 

Het model is zelden de bottleneck

Een intelligent systeem is maar zo slim als de data waarop het draait. Garbage in, garbage out, maar dan op schaal en met een aanzienlijk prijskaartje.

GPT-4, Llama, Mistral, Phi-3: voor de meeste enterprise use cases zijn de modellen vandaag ruim sterk genoeg. Het verschil tussen een AI-oplossing die vertrouwen opbouwt en een oplossing die frustratie veroorzaakt, zit meestal elders.

De echte bottleneck zit in wat er voor het model gebeurt. Is de data beschikbaar? Is ze actueel? Begrijpt iedereen dezelfde definities? Weet iemand wie eigenaar is van de bron waarop de output steunt?

Neem een retailorganisatie die een AI-assistent wil bouwen voor vraagvoorspelling. Het model staat in enkele weken klaar. De koppeling tussen ERP, WMS en externe marktdata sleept zeven maanden aan, omdat niemand ooit heeft beslist hoe die stromen samenkomen, wie ze beheert en welke versie betrouwbaar is.

Dat is geen uitzondering. Dat is het patroon.

Een intelligent systeem haalt zijn waarde uit de kwaliteit van de context waarop het werkt. Zodra die context versnipperd, verouderd of onduidelijk is, schaalt ook de fout mee op. Alleen nu sneller, overtuigender en duurder.

 

Wat een datalayer voor AI echt moet doen

Een datalayer is geen opslagplaats waar je alles verzamelt en daarna hoopt dat AI er iets zinvols mee doet. Ze moet vier dingen tegelijk waarmaken.

1. Beschikbaarheid. Relevante data moet toegankelijk zijn via een logische, samenhangende laag, los van waar die historisch ontstaan is.

2. Kwaliteit. Data moet gevalideerd, gedocumenteerd en beheerd zijn. Zonder eigenaarschap wordt kwaliteit toeval.

3. Actualiteit. De data moet aansluiten op de snelheid die je use case vraagt. Voor sommige scenario’s volstaat een dagelijkse update. Voor andere is quasi real-time nodig.

4. Governance. Je moet weten wie toegang heeft tot welke data, waarom, en of dat strookt met je beleid en complianceverplichtingen.

Op papier klinkt dat evident. In de praktijk zien we dat bij de meeste organisaties minstens een van die vier onder druk staat. Vaak meer dan een tegelijk.

 

Waarom Fabric het gesprek verschuift

Microsoft Fabric verandert dat gesprek omdat het vertrekt vanuit integratie in plaats van versnippering. Waar data vroeger verspreid zat over afzonderlijke tools voor integratie, engineering, warehousing, BI en governance, brengt Fabric die lagen samen binnen een platform met OneLake als gedeelde basis.

Dat heeft een directe impact op AI. Zodra je data niet langer door losse exports, dubbele opslag en geïmproviseerde koppelingen moet passeren, stijgt de betrouwbaarheid van wat een AI-systeem ophaalt en genereert. Je verkleint latency, beperkt datavervuiling en maakt governance structureel in plaats van achteraf toegevoegd.

Voor use cases die sneller moeten reageren, voegt Fabric daar ook native mogelijkheden rond real-time intelligence aan toe. En met Purview als ingebouwde laag voor policies, compliance en auditability wordt zichtbaarheid eindelijk onderdeel van het fundament.

Die nuance blijft belangrijk: Fabric is een enabler, geen wondermiddel. Organisaties halen er pas echt voordeel uit wanneer ze eerst helder hebben hoe hun datamodel eruitziet, welke domeinen er zijn en wie waarvoor verantwoordelijkheid draagt. Fabric maakt een goede strategie uitvoerbaar. Het vervangt ze niet.

 

Waarom lakehouse de logische AI-architectuur wordt

De verschuiving naar lakehouse-architectuur is geen hype. Ze volgt rechtstreeks uit wat AI van data vraagt.

Een klassiek data warehouse is sterk in gestructureerde, historische analyses. Dat blijft waardevol voor rapportering en stuurinformatie. Alleen botst het sneller op limieten zodra AI ook tekst, documenten, beelden of event data moet meenemen. Een data lake vangt dat volumeverhaal beter op, maar zonder voldoende structuur dreigt het te ontaarden in een omgeving waar alles beschikbaar lijkt en niemand nog weet wat betrouwbaar is.

Lakehouse brengt die twee werelden samen. De flexibiliteit van een lake. De betrouwbaarheid en beheersbaarheid van een warehouse. Net die combinatie maakt het geschikt als basis voor moderne AI-workloads, waar gestructureerde en ongestructureerde data samen context vormen voor agenten, copilots en analytische toepassingen.

 

Drie concrete aanbevelingen voor jouw organisatie

1. Start met een data-audit
Niet om een inventaris in een lade te stoppen, wel om scherp te krijgen welke data je echt hebt, waar ze leeft, hoe actueel ze is en wie ze beheert. Dat legt bijna altijd pijnpunten bloot die voordien onzichtbaar bleven.

2. Bepaal eerst je datastrategie
Technologie kiezen zonder duidelijkheid over domeinen, definities en ownership leidt zelden tot versnelling. Meestal bouw je dan sneller op een fundament dat nog niet stabiel genoeg is.

3. Behandel governance als groeiversneller
Governance wordt nog te vaak gezien als rem of verplichting. In werkelijkheid zorgt ze ervoor dat AI-use cases sneller live kunnen gaan, net omdat vertrouwen, toegang en controle vooraf geregeld zijn.

De organisaties die de komende jaren het verschil maken met AI, zijn niet per se degene die als eerste met een nieuw model experimenteren. Het zijn de organisaties die vandaag hun datafundament op orde brengen.

 

De echte vraag voor de komende fase

Dat is ook de kern van dit verhaal: een agent die toegang heeft tot de verkeerde context, blijft even onbetrouwbaar, ongeacht hoe slim het model lijkt.

Bij Xylos helpen we organisaties om precies daar werk van te maken: van data-assessment tot lakehouse-architectuur en Fabric-implementatie, telkens vertrekkend vanuit de businesswaarde die een oplossing moet opleveren. Neem contact op voor een vrijblijvend data-assessment. We brengen in kaart waar je vandaag staat, waar de grootste gaps zitten en welke stappen het meeste rendement opleveren.

 

In het volgende artikel gaan we nog een stap verder. Dan bekijken we hoe je dit datafundament verbindt met AI-output die je ook echt kunt vertrouwen en verifiëren: grounded AI, en de architectuur die daarvoor nodig is.

 

Over de auteur

Peter Verrykt is Data & Analytics Business Lead bij Xylos en begeleidt organisaties in het omzetten van data naar concrete businesswaarde. Hij helpt bedrijven om verder te kijken dan technische implementaties en data te gebruiken als fundament voor betere beslissingen, meer wendbaarheid en duurzame groei.

Deel deze klantencase

Laten we het hebben over je volgende project.

Team Xylos is klaar om je te ontmoeten!

Andere interessante verhalen