Afin d'éviter que les modèles d'IA développés à Taïwan ne parlent avec un fort accent pékinois ou ne manquent de sensibilité culturelle locale, le ministère du Développement numérique (MODA) a récemment annoncé le lancement de…« Corpus d'IA sur la souveraineté de Taïwan » (Corpus d'IA souveraine de Taïwan) Version bêta.
La première vague de diffusion de données concerne plus de 200 organismes gouvernementaux, dont le ministère de la Culture, le ministère de l'Éducation, le Conseil des affaires hakka, le Conseil des peuples autochtones et le ministère des Transports et des Communications. Elle comprend plus de 2 000 ensembles de données, soit environ 600 millions d'éléments de données de haute qualité en chinois traditionnel, couvrant des domaines tels que la culture et les arts, la géographie, la langue, la médecine et les transports. Les applications destinées aux entreprises, aux établissements d'enseignement supérieur et aux instituts de recherche sont disponibles dès aujourd'hui.
Pourquoi avons-nous besoin d'une « IA souveraine » ?
Hou Yi-hsiu, vice-ministre du Développement numérique, a déclaré que tous les pays développent l'IA et que le véritable avantage concurrentiel ne réside pas dans la puissance de calcul (car les GPU sont accessibles à tous), mais plutôt dans les données et les talents. La culture, la langue et les valeurs uniques de Taïwan font que si nous ne le faisons pas nous-mêmes, aucun autre pays ni géant technologique ne le fera à notre place.
Chuang Ming-fen, directrice de la division Innovation des données, a cité un exemple classique : le mot « pomme de terre ». En chinois, « pomme de terre » désigne la pomme de terre (马铃薯) ; or, à Taïwan, il désigne la cacahuète (落花生). Si l’IA est alimentée avec des données incorrectes, le modèle entraîné donnera des réponses erronées, pouvant même engendrer des confusions culturelles. Renforcer la proportion de caractères chinois traditionnels et classiques est crucial pour que les grands modèles de langage (LLM) puissent véritablement comprendre les systèmes politiques, économiques, culturels et axiologiques de Taïwan.
Deux principales catégories de documents sont requises pour la demande ; une « carte d’identité » est requise.
Le corpus actuellement en ligne est divisé en deux parties :
• Données ouvertes :Ouvert et téléchargeable gratuitement.
• Documents d'autorisation (Diffusion restreinte) :À des fins de formation à l'IA uniquement ; une demande et une approbation sont requises.
Afin de garantir la protection des données, les tiers souhaitant utiliser des données autorisées doivent justifier de leur identité au moyen d'un certificat d'identité (personne physique ou morale) et préciser l'objet de leur utilisation. Le service de développement des données examine la demande sous sept jours ouvrés environ avant de fournir un compte autorisé pour le téléchargement. Les formats de fichiers proposés sont actuellement les formats PDF et JSON, conformes aux principes FAIR du partage international des données (données consultables, accessibles, interopérables et réutilisables).
Résoudre le problème le plus épineux du « droit d'auteur » : la licence unique
Pour les développeurs, la plus grande crainte lors de l'entraînement d'IA est de commettre des infractions au droit d'auteur. En réponse, le Département du développement numérique et l'Office de la propriété intellectuelle du ministère des Affaires économiques ont collaboré à l'élaboration de conditions de licence exclusives.
Le modèle de « licence unique » autorise l’utilisation légale du corpus fourni pour l’entraînement de l’IA (y compris la reproduction, la modification et l’édition) avec l’accord du concédant. En contrepartie, le titulaire de la licence (développeur) est tenu d’indiquer la source des données et le contenu produit doit être identifié comme généré par l’IA. De plus, le titulaire de la licence doit s’assurer que les résultats de l’entraînement ne sont pas « substantiellement similaires » au corpus original afin de protéger la valeur marchande de l’œuvre originale.
Analyse : Les données sont le pétrole de l'ère de l'IA, mais la « quantité » et la « qualité » restent des défis.
À mon avis, le lancement du Sovereign AI Corpus par le ministère du Développement des données est une pièce essentielle du puzzle dans l'infrastructure du développement de l'IA à Taïwan.
Au cours de l'année écoulée, de nombreux modèles de chinois traditionnel ont été perfectionnés à partir de Llama ou de GPT. Bien que ces modèles permettent des dialogues fluides, ils présentent souvent des lacunes en matière de droit, d'histoire, de culture autochtone ou de terminologie locale taïwanaise. L'intervention officielle visant à intégrer des données gouvernementales de haute qualité, vérifiées manuellement, a considérablement amélioré la fiabilité des modèles développés localement.
Cependant, 6 millions de jetons représentent une goutte d'eau dans l'océan comparée au volume d'entraînement des modèles linéaires modernes (qui se chiffrent souvent en billions de jetons). Le défi à venir consiste à étendre ce corpus du gouvernement central aux collectivités locales, voire aux entreprises privées. Ce n'est que lorsque davantage de données du secteur privé (médias, éditeurs et établissements d'enseignement supérieur, par exemple) seront intégrées dans le cadre d'autorisations raisonnables et de mécanismes de partage des bénéfices que ce corpus pourra véritablement devenir le cœur de l'IA taïwanaise, et non une simple base de données de réglementations gouvernementales.
