Les données montrent que l'Asie compte actuellement plus de 2300 32 langues locales, représentant environ XNUMX % de la population mondiale. Cependant, la plupart de ces langues manquent de ressources numériques et sont menacées de marginalisation, voire d'extinction. Google s'efforce de favoriser l'utilisation numérique de davantage de langues locales grâce à une série de projets d'IA.
Projet Vaani : 21500 XNUMX heures de données vocales, au cœur de l'Inde
Il y a trois ans, Google et l'Institut indien des sciences ont lancéUn projet appelé "Projet Vaani"L'objectif est d'inclure des variantes linguistiques de 773 régions de Chine. Actuellement, 21500 835 heures de fichiers audio et 86 heures de données de transcription ont été collectées, couvrant 11.2 langues et XNUMX XNUMX locuteurs.
Ces données ne se limitent pas à des projets spécifiques, mais sont mises gratuitement à la disposition du grand public via l'Indian National Language Mission Bhashini et la plateforme HuggingFace, favorisant ainsi le développement et l'application de davantage de modèles d'IA.
Le chef de projet a expliqué que les langues en Inde ne sont pas uniformes d'un État à l'autre. Par exemple, le Bihar, deuxième État le plus peuplé et douzième plus grand d'Inde, compte plus de 100 dialectes locaux et leurs variantes. La mobilité de la population complexifie encore davantage les différences linguistiques ; il est donc crucial de saisir ces subtiles variations pour garantir l'utilisation des services dans toute l'Inde.
Le projet Vaani a achevé les première et deuxième phases de collecte de données, couvrant 160 districts et comtés, et collabore avec Megdap, Karya et d'autres unités pour étendre continuellement l'échelle de collecte de corpus.
Projet SEALD et Aquarium : base de données de 1200 XNUMX langues d'Asie du Sud-Est
L'Asie du Sud-Est compte 11 pays, une population de plus de 6.5 millions d'habitants et 1200 700 langues. Rien qu'en Indonésie, on compte plus de XNUMX langues locales. Pour gérer un environnement linguistique aussi complexe, Google etIA SingapourPromouvoir conjointementProjet SEALD, l'outil principal est la plateforme Aquarium.
L'objectif de la plateforme Aquarium est de créer un catalogue complet de données sur les langues d'Asie du Sud-Est, permettant à chacun de contribuer et d'utiliser les données, et de promouvoir des outils et des applications d'IA qui répondent aux besoins locaux.
L'équipe du projet a également élaboré des stratégies pour les langues à faibles ressources et menacées. Cela comprend la collaboration avec les institutions locales pour numériser les sources écrites ou orales et les vérifier auprès de locuteurs natifs. Pour les langues en voie de disparition, les contenus audio et les transcriptions des locuteurs natifs sont collectés via des images ou des textes et stockés dans un corpus.
CHAD 2 : Briser la barrière de la langue dans la comédie japonaise grâce à l'IA
L'IA linguistique préserve non seulement le contenu, mais favorise également la production culturelle. Yoshimoto Kogyo, la plus grande agence de divertissement du Japon, s'est associée à Google pour développer le système CHAD 2, basé sur Gemini 2.0 Flash et conçu spécifiquement pour la traduction de « お笑い » (Owarai, une comédie japonaise).
Dès que vous téléchargez une vidéo, CHAD 2 génère automatiquement des sous-titres en chinois, anglais et coréen. Son taux de précision de transcription et de traduction atteint 90 %, bien supérieur aux 60 à 75 % des modèles classiques. Parallèlement, le processus de traduction est réduit de plusieurs mois à quelques minutes.
Le système comprend plus de 200 dictionnaires spécifiques à la comédie, capables de traiter les allusions culturelles et les punchlines. Une extension future à la traduction d'animes, de dramas ou de sports est possible simplement en ajoutant des dictionnaires supplémentaires. Yoshimoto Kogyo travaille également à la commercialisation du système, permettant ainsi au public mondial de comprendre instantanément les punchlines des comédies japonaises.
Un avenir qui comble la fracture numérique grâce à l'IA
Qu'il s'agisse du projet Vaani axé sur les dialectes indiens, de SEALD sur les langues d'Asie du Sud-Est ou des applications interculturelles de CHAD 2, l'IA devient un outil essentiel pour la préservation des langues et la diffusion culturelle. Avec l'augmentation de l'échelle des données et l'évolution des modèles, la révolution de la numérisation des langues impulsée par Google permettra à davantage de langues asiatiques de sortir du silence et de s'intégrer au monde numérique mondial.
Mozilla a un plan similaire
Des projets similaires incluent le projet de moteur de reconnaissance vocale open source promu par Mozilla depuis juillet 2017.Projet de voix simultanée (Common Voice), en 2017, a accumulé 7226 heures de contenu vocal, dont 14 langues de niche supplémentaires, portant le nombre de langues incluses à 54. Fin février de cette année, il a été annoncé que8 langues aborigènes taïwanaises, dont l'atayal, le bunun, le paiwan, le rukai, le wanshan, le maolin, le seediq et le sakilaya, avec une durée de données cumulée de plus de 60 heures. Il comprend plus de 200 langues du monde entier, dont le chinois traditionnel taïwanais et le hokkien taïwanais.







