Selon les données disponibles, l'Asie compte actuellement plus de 2 300 langues locales, soit environ 32 % du total mondial. Cependant, la plupart de ces langues manquent de ressources numériques et sont menacées de marginalisation, voire d'extinction. Google s'efforce de permettre à davantage de langues locales d'accéder au développement numérique grâce à une série de projets d'intelligence artificielle. Projet Vaani : 21 500 heures de données vocales, au cœur de l'Inde. Il y a trois ans, Google et l'Institut indien des sciences ont lancé le projet Vaani, visant à collecter des variantes linguistiques dans 773 régions du pays. À ce jour, 21 500 heures d'enregistrements vocaux et 835 heures de données de transcription ont été collectées, couvrant 86 langues et provenant de 11.2 000 locuteurs. Ces données ne sont pas réservées à un projet spécifique et sont mises gratuitement à la disposition du public via la Mission nationale indienne pour les langues (Bhashini) et la plateforme Hugging Face, favorisant ainsi le développement et l'application de nouveaux modèles d'IA. Le responsable du projet a expliqué que les langues en Inde ne sont pas unifiées au sein d'un même État. Par exemple, au Bihar, le deuxième État le plus peuplé d'Inde et le douzième par sa superficie, on compte plus de 100 dialectes locaux et leurs variantes. La mobilité de la population complexifie les différences linguistiques, rendant cruciale la prise en compte de ces subtiles variations pour garantir l'accessibilité des services dans toute l'Inde. Le projet Vaani a achevé ses deux premières phases de collecte de données, couvrant 160 districts, et collabore avec des organisations telles que Megdap et Karya pour enrichir continuellement son corpus. Projet SEALD et Aquarium : une base de données de 1 200 langues en Asie du Sud-Est. L'Asie du Sud-Est comprend 11 pays, plus de 650 millions d'habitants et 1 200 langues, dont plus de 700 langues locales rien qu'en Indonésie. Pour appréhender cette complexité linguistique, Google et AI Singapore ont lancé conjointement le projet SEALD, dont la plateforme Aquarium constitue l'outil principal. Aquarium vise à créer un catalogue exhaustif des langues d'Asie du Sud-Est, permettant à tous de contribuer et d'utiliser les données, favorisant ainsi le développement d'outils et d'applications d'IA adaptés aux besoins locaux. L'équipe du projet a également élaboré des stratégies pour les langues en voie de disparition ou disposant de peu de ressources, notamment en collaborant avec des institutions locales pour numériser des données écrites ou orales, qui sont ensuite vérifiées par des locuteurs natifs. Si une langue est en voie d'extinction, les enregistrements audio et les données de transcription des locuteurs natifs sont collectés et stockés dans un corpus à l'aide d'images ou de textes. CHAD 2 : L'IA au service de la traduction automatique pour lever les barrières linguistiques dans le domaine de l'humour japonais. L'IA linguistique ne se limite pas à la simple préservation ; elle peut aussi favoriser l'exportation culturelle. Développé en collaboration avec Google et Yoshimoto Kogyo, la plus grande agence de divertissement du Japon, le système CHAD 2 est basé sur Gemini 2.0 Flash et conçu spécifiquement pour la traduction de l'« Owarai » (humour japonais). Il suffit de télécharger une vidéo, et CHAD 2 génère automatiquement des sous-titres en chinois, en anglais et en coréen. Sa précision de transcription et de traduction atteint 90 %, dépassant largement les 60 à 75 % des modèles classiques, tout en réduisant le temps de traduction de plusieurs mois à quelques minutes. Le système intègre plus de 200 dictionnaires spécialisés dans l'humour, capables de traiter les allusions culturelles et les blagues. Son extension future à la traduction d'anime, de séries télévisées ou d'articles sportifs est envisageable par simple ajout de dictionnaires. Yoshimoto Kogyo travaille également à la commercialisation du système, permettant ainsi à un public international de comprendre instantanément l'humour japonais. L'avenir de la réduction de la fracture numérique grâce à l'IA – qu'il s'agisse de l'exploration des dialectes hindi par le projet Vaani, de l'intérêt porté aux langues d'Asie du Sud-Est par SEALD ou de l'application de CHAD 2 au-delà des barrières culturelles – souligne l'importance croissante de l'IA comme outil de préservation des langues et de transmission culturelle. Avec l'augmentation du volume de données et l'évolution des modèles, cette révolution de la numérisation des langues, impulsée par Google, permettra à davantage de langues asiatiques de sortir de l'oubli et de trouver leur place dans le monde numérique global.