À une époque où les applications d’IA générative deviennent de plus en plus populaires, la qualité et l’ouverture des sources de connaissances deviennent essentielles pour stimuler l’innovation.宣布Grâce au projet Wikidata Embedding, l'entreprise rendra la vaste base de données de connaissances plus adaptée à une utilisation dans des modèles d'IA générative, abaissera le seuil pour les développeurs de petite et moyenne taille qui souhaitent l'introduire et l'utiliser, et réduira la situation dans laquelle la technologie d'IA générative est monopolisée par quelques géants de la technologie.
Wikipédia a déjà structuré ses données via Wikidata, qui englobe environ 120 millions d'entrées, ce qui les rend théoriquement plus faciles à lire pour les machines. Cependant, l'IA générative préférant traiter le contenu en langage naturel plutôt que les données structurées brutes, Wikidata est difficile à utiliser directement. Le nouveau projet intégré vise à convertir Wikidata en un format vectoriel compréhensible par les modèles d'IA.
La vectorisation cartographie les relations entre les mots dans un espace de coordonnées. Par exemple, la relation entre « chien » et « chiot » sera plus étroite, tandis que celle entre « chien » et « compte bancaire » sera plus étroite, voire sans rapport. Cette conversion de données permet à l'IA de mieux comprendre le sens et le contexte naturels des données, améliorant ainsi la précision du traitement du langage naturel.
Plus important encore, l'entraînement précédent de l'IA reposait souvent uniquement sur des données statiques, ce qui rendait difficile la prise en compte rapide des mises à jour ultérieures du contenu de Wikipédia. Cependant, grâce à ce projet, Wikidata a également intégré un mécanisme de génération augmentée (RAG) permettant aux modèles d'IA d'accéder aux données les plus récentes en temps réel, améliorant ainsi considérablement la rapidité et la fiabilité des réponses.
Wikimedia Allemagne a souligné dans un communiqué de presse que l'objectif principal du projet était de « permettre aux modèles d'IA d'accéder à des informations de haute qualité afin d'améliorer la crédibilité de leurs résultats ». L'entreprise a également souligné que la plupart des systèmes d'IA reposent actuellement sur des données opaques et propriétaires, manquant de transparence et de vérifiabilité. L'ouverture de Wikidata vectorisées favorisera non seulement l'équité dans le développement de l'IA, mais aidera également les petites équipes à alléger la charge de travail, évitant ainsi que la technologie d'IA générative ne soit monopolisée par quelques géants de la technologie.
En réalité, la vectorisation de volumes massifs de données requiert des ressources de calcul et de stockage extrêmement importantes, ce qui complique la tâche des PME et des développeurs indépendants. Le projet Wikipédia Embedded collabore avec la start-up allemande d'intelligence artificielle Jina AI et la filiale d'IBM DataStax. Jina AI développera le système de vectorisation, tandis que DataStax stockera les données dans sa base de données vectorielle Astra DB. Les développeurs peuvent ainsi exploiter directement la base de connaissances de Wikipédia pour leurs applications sans avoir à construire une infrastructure complexe.
Comme l'a déclaré Wikimedia Allemagne, « une IA puissante ne devrait pas être monopolisée par quelques entreprises. » Ce projet n'est pas seulement une mise à niveau technologique ; c'est une déclaration en faveur d'un développement de l'IA ouvert et collaboratif. À mesure que l'IA générative se généralise, ce modèle open source et partagé pourrait devenir une étape clé dans la promotion d'un écosystème d'IA plus diversifié.
