Votre stratégie d’IA dépend de votre base de données

L'année dernière, j'ai reçu un appel téléphonique que j'ai entendu depuis lors se répercuter dans toutes sortes de variantes. "Peter, nous avons fait tout ce qui semblait logique. Azure OpenAI, Copilot Studio, nous avons suivi les bonnes lignes directrices. Et pourtant, le résultat reste décevant. Où cela se passe-t-il mal ?"

Après une demi-heure d'exploration, il était clair que le problème ne se situait pas dans le modèle, mais dans les données. Des documents SharePoint obsolètes, des exportations ERP dans Excel et une base de connaissances avec différentes définitions les unes à côté des autres. Tout était là. Mais rien ne fonctionnait vraiment ensemble.

Le modèle a fait ce qu'il était censé faire. Les données ne l'ont pas fait. En tant que Data & Analytics Business Lead chez Xylos, je vois ce schéma dans presque toutes les organisations qui cherchent à se lancer dans l'IA. C'est pourquoi cet article traite de la couche de données : la fondation qui reçoit beaucoup moins d'attention que le modèle, mais qui en détermine beaucoup plus.

Données et AnalysesIntelligence artificielleServices gérés

Voici le troisième article de notre série de blogs sur les éléments constitutifs d’une approche évolutive de l’IA dans les organisations. Dans un premier temps, nous nous sommes penchés sur l’incendie de l’IA dans les entreprises. Puis nous avons examiné le rôle de Power Platform en tant que passerelle vers une intégration contrôlée de l’IA. Cette fois-ci, nous nous intéressons aux fondations de cette approche : la couche de données.

Le modèle est rarement le goulot d’étranglement

Un système intelligent n’est pas plus intelligent que les données sur lesquelles il fonctionne. Les déchets entrent, les déchets sortent, mais à grande échelle et à un prix élevé.

GPT-4, Llama, Mistral, Phi-3 : pour la plupart des cas d’utilisation en entreprise aujourd’hui, les modèles sont plus que suffisants. La différence entre une solution d’IA qui suscite la confiance et une autre qui provoque des frustrations se situe généralement ailleurs.

Le véritable goulot d’étranglement se situe au niveau de ce qui se passe devant le modèle. Les données sont-elles disponibles ? Sont-elles à jour ? Tout le monde comprend-il les mêmes définitions ? Quelqu’un sait-il à qui appartient la source sur laquelle repose le résultat ?

Prenons l’exemple d’une entreprise de vente au détail qui souhaite créer un assistant IA pour la prévision de la demande. Le modèle est prêt en quelques semaines. Le lien entre l’ERP, le WMS et les données externes du marché traîne pendant sept mois, parce que personne n’a jamais décidé comment ces flux se rejoignent, qui les gère et quelle version est fiable.

Ce n’est pas une exception. Il s’agit d’un modèle.

Un système intelligent tire sa valeur de la qualité du contexte dans lequel il opère. Lorsque ce contexte est fragmenté, obsolète ou peu clair, l’erreur s’étend également à ce contexte. Elle est alors plus rapide, plus convaincante et plus coûteuse.

Ce qu’une couche de données pour l’IA doit vraiment faire

Une couche de données n’est pas un dépôt où l’on recueille tout en espérant que l’IA en fera quelque chose de significatif. Elle doit remplir quatre fonctions à la fois.

1. Disponibilité. Les données pertinentes doivent être accessibles par le biais d’une couche logique et cohérente, quelle que soit leur origine historique.

2. La qualité. Les données doivent être validées, documentées et gérées. Sans appropriation, la qualité devient une coïncidence.

3. L’actualité. Les données doivent correspondre à la vitesse exigée par votre cas d’utilisation. Pour certains scénarios, une mise à jour quotidienne est suffisante. Pour d’autres, une mise à jour en temps quasi réel est nécessaire.

4. La gouvernance. Vous devez savoir qui a accès à quelles données, pourquoi, et si cela est conforme à vos politiques et à vos obligations de conformité.

Sur le papier, cela semble évident. En pratique, nous constatons que dans la plupart des organisations, au moins l’un de ces quatre éléments est sous pression. Souvent plus d’un à la fois.

Pourquoi le tissu change la donne

Microsoft Fabric change la donne, car il part de l’intégration plutôt que de la fragmentation. Alors que les données étaient auparavant réparties entre des outils distincts pour l’intégration, l’ingénierie, l’entreposage, la BI et la gouvernance, Fabric rassemble ces couches au sein d’une plateforme dont le fondement commun est OneLake.

Cela a un impact direct sur l’IA. Une fois que vous n’avez plus à faire transiter les données par des exportations lâches, des stockages en double et des liens improvisés, la fiabilité de ce qu’un système d’IA récupère et génère augmente. Vous réduisez la latence, limitez la contamination des données et rendez la gouvernance structurelle plutôt qu’ajoutée après coup.

Pour les cas d’utilisation qui nécessitent des temps de réponse plus rapides, Fabric ajoute également des capacités natives autour de l’intelligence en temps réel. Et avec Purview comme couche intégrée pour les politiques, la conformité et l’auditabilité, la visibilité fait enfin partie de la fondation.

Cette nuance reste importante : Fabric est un facilitateur, pas une panacée. Les organisations n’en tirent réellement profit que lorsqu’elles comprennent clairement à quoi ressemble leur modèle de données, quels sont les domaines existants et qui est responsable de quoi. Fabric rend les bonnes stratégies exécutables. Elle ne les remplace pas.

Pourquoi la maison de lac devient l’architecture logique de l’IA

Le passage à l’architecture de type « lakehouse » n’est pas un effet d’annonce. Il découle directement des exigences de l’IA en matière de données.

Un entrepôt de données classique est fort en analyse structurée et historique. Cela reste précieux pour les rapports et les informations de pilotage. Mais il se heurte plus rapidement à des limites dès que l’IA doit également inclure du texte, des documents, des images ou des données événementielles. Un lac de données capture mieux cette histoire de volume, mais sans structure suffisante, il risque de dégénérer en un environnement où tout semble disponible et où personne ne sait plus ce qui est fiable.

Lakehouse réunit ces deux mondes. La flexibilité d’un lac. La fiabilité et la facilité de gestion d’un entrepôt. C’est précisément cette combinaison qui en fait une base adaptée aux charges de travail modernes de l’IA, où les données structurées et non structurées forment ensemble un contexte pour les agents, les copilotes et les applications analytiques.

Trois recommandations qui aideront les organisations à aller de l’avant dès aujourd’hui

1. Commencez par un audit des données
Il ne s’agit pas de ranger un inventaire dans un tiroir, mais de se concentrer sur les données que vous possédez réellement, sur leur localisation, sur leur actualité et sur les personnes qui les gèrent. Cela permet presque toujours de mettre à jour des points problématiques qui étaient restés invisibles jusqu’à présent.

2. Définissez d’abord votre stratégie en matière de données
Le choix d’une technologie sans clarté sur les domaines, les définitions et la propriété conduit rarement à une accélération. En général, vous construirez plus rapidement sur des fondations qui ne sont pas encore assez stables.

3. Traiter la gouvernance comme un accélérateur de croissance
La gouvernance est encore trop souvent considérée comme un frein ou une obligation. En réalité, elle permet aux cas d’utilisation de l’IA d’être mis en œuvre plus rapidement, précisément parce que la confiance, l’accès et le contrôle sont préétablis.

Les organisations qui feront la différence avec l’IA dans les années à venir ne sont pas nécessairement celles qui seront les premières à expérimenter un nouveau modèle. Ce sont les organisations qui mettent en ordre les bases de leurs données dès aujourd’hui.

La vraie question pour la prochaine phase

C’est également le point essentiel de cette histoire : un agent ayant accès au mauvais contexte reste tout aussi indigne de confiance, quelle que soit l’intelligence du modèle.

Chez Xylos, nous aidons les organisations à y parvenir : de l’évaluation des données à l’architecture Lakehouse et à la mise en œuvre de Fabric, en partant toujours de la valeur commerciale qu’une solution doit apporter. Contactez-nous pour une évaluation des données sans engagement. Nous déterminerons votre situation actuelle, les lacunes les plus importantes et les mesures qui vous rapporteront le plus.

Dans le prochain article, nous irons plus loin. Nous verrons alors comment relier cette base de données à des résultats d’IA auxquels vous pouvez réellement faire confiance et que vous pouvez vérifier : l’IA ancrée dans le sol et l’architecture nécessaire à cette fin.

A propos de l’auteur

Peter Verrykt est Data & Analytics Business Lead chez Xylos et aide les organisations à transformer les données en valeur commerciale concrète. Il aide les entreprises à aller au-delà des implémentations techniques et à utiliser les données comme base pour de meilleures décisions, une plus grande agilité et une croissance durable.

Partager ce cas client

Parlons de votre prochain projet.

L’équipe Xylos est prête à vous rencontrer !

Autres articles intéressants

Intelligence artificielle

Solutions

Services

Industries

Votre stratégie d’IA dépend de votre base de données

Le modèle est rarement le goulot d’étranglement

Ce qu’une couche de données pour l’IA doit vraiment faire

Pourquoi le tissu change la donne

Pourquoi la maison de lac devient l’architecture logique de l’IA

Trois recommandations qui aideront les organisations à aller de l’avant dès aujourd’hui

La vraie question pour la prochaine phase

A propos de l’auteur

Parlons de votre prochain projet.

Autres articles intéressants

Quoi de neuf dans le monde de la GenAI | Numéro 6

L’IA sous contrôle : vers l’« agentic enterprise »

Le réseau, fondement de l’IA

Le véritable défi de l’IA : vos bases

Que se passe-t-il si les autorités désactivent votre IA ?

What’s new in GenAI land | Editie 5