• Sujets principaux
  • Intelligence artificielle
  • Pilote automatique
  • réseau
  • processeur
  • Téléphone portable
  • Expositions
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 关于 我们
    • À propos de mashdigi
    • coordonnées du site web mashdigi
2026/03/07 02:50 samedi
  • Login
mashdigi – Technologie, nouveaux produits, actualités intéressantes, tendances
  • Sujets principaux
  • Intelligence artificielle
  • Pilote automatique
  • réseau
  • processeur
  • Téléphone portable
  • Expositions
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 关于 我们
    • À propos de mashdigi
    • coordonnées du site web mashdigi
Pas de résultat
Voir tous les résultats
  • Sujets principaux
  • Intelligence artificielle
  • Pilote automatique
  • réseau
  • processeur
  • Téléphone portable
  • Expositions
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 关于 我们
    • À propos de mashdigi
    • coordonnées du site web mashdigi
Pas de résultat
Voir tous les résultats
mashdigi – Technologie, nouveaux produits, actualités intéressantes, tendances
Pas de résultat
Voir tous les résultats
page de garde  Application

Des dialectes indiens aux traductions de comédies japonaises, Google utilise l'IA pour numériser plus de 2300 XNUMX langues locales en Asie.

Écrit par : Mash Yang
2025-08-19
in  Application , Dynamique du marché, 生活, réseau, observer, Logiciel
A A
0
Partager sur FacebookPartager sur TwitterPartager sur LINE

Les données montrent que l'Asie compte actuellement plus de 2300 32 langues locales, représentant environ XNUMX % de la population mondiale. Cependant, la plupart de ces langues manquent de ressources numériques et sont menacées de marginalisation, voire d'extinction. Google s'efforce de favoriser l'utilisation numérique de davantage de langues locales grâce à une série de projets d'IA.

Des dialectes indiens aux traductions de comédies japonaises, Google utilise l'IA pour numériser plus de 2300 XNUMX langues locales en Asie.

Projet Vaani : 21500 XNUMX heures de données vocales, au cœur de l'Inde

Il y a trois ans, Google et l'Institut indien des sciences ont lancéUn projet appelé "Projet Vaani"L'objectif est d'inclure des variantes linguistiques de 773 régions de Chine. Actuellement, 21500 835 heures de fichiers audio et 86 heures de données de transcription ont été collectées, couvrant 11.2 langues et XNUMX XNUMX locuteurs.

Ces données ne se limitent pas à des projets spécifiques, mais sont mises gratuitement à la disposition du grand public via l'Indian National Language Mission Bhashini et la plateforme HuggingFace, favorisant ainsi le développement et l'application de davantage de modèles d'IA.

Des dialectes indiens aux traductions de comédies japonaises, Google utilise l'IA pour numériser plus de 2300 XNUMX langues locales en Asie.

Le chef de projet a expliqué que les langues en Inde ne sont pas uniformes d'un État à l'autre. Par exemple, le Bihar, deuxième État le plus peuplé et douzième plus grand d'Inde, compte plus de 100 dialectes locaux et leurs variantes. La mobilité de la population complexifie encore davantage les différences linguistiques ; il est donc crucial de saisir ces subtiles variations pour garantir l'utilisation des services dans toute l'Inde.

Le projet Vaani a achevé les première et deuxième phases de collecte de données, couvrant 160 districts et comtés, et collabore avec Megdap, Karya et d'autres unités pour étendre continuellement l'échelle de collecte de corpus.

Projet SEALD et Aquarium : base de données de 1200 XNUMX langues d'Asie du Sud-Est

L'Asie du Sud-Est compte 11 pays, une population de plus de 6.5 millions d'habitants et 1200 700 langues. Rien qu'en Indonésie, on compte plus de XNUMX langues locales. Pour gérer un environnement linguistique aussi complexe, Google etIA SingapourPromouvoir conjointementProjet SEALD, l'outil principal est la plateforme Aquarium.

L'objectif de la plateforme Aquarium est de créer un catalogue complet de données sur les langues d'Asie du Sud-Est, permettant à chacun de contribuer et d'utiliser les données, et de promouvoir des outils et des applications d'IA qui répondent aux besoins locaux.

L'équipe du projet a également élaboré des stratégies pour les langues à faibles ressources et menacées. Cela comprend la collaboration avec les institutions locales pour numériser les sources écrites ou orales et les vérifier auprès de locuteurs natifs. Pour les langues en voie de disparition, les contenus audio et les transcriptions des locuteurs natifs sont collectés via des images ou des textes et stockés dans un corpus.

Des dialectes indiens aux traductions de comédies japonaises, Google utilise l'IA pour numériser plus de 2300 XNUMX langues locales en Asie.

CHAD 2 : Briser la barrière de la langue dans la comédie japonaise grâce à l'IA

L'IA linguistique préserve non seulement le contenu, mais favorise également la production culturelle. Yoshimoto Kogyo, la plus grande agence de divertissement du Japon, s'est associée à Google pour développer le système CHAD 2, basé sur Gemini 2.0 Flash et conçu spécifiquement pour la traduction de « お笑い » (Owarai, une comédie japonaise).

Dès que vous téléchargez une vidéo, CHAD 2 génère automatiquement des sous-titres en chinois, anglais et coréen. Son taux de précision de transcription et de traduction atteint 90 %, bien supérieur aux 60 à 75 % des modèles classiques. Parallèlement, le processus de traduction est réduit de plusieurs mois à quelques minutes.

Le système comprend plus de 200 dictionnaires spécifiques à la comédie, capables de traiter les allusions culturelles et les punchlines. Une extension future à la traduction d'animes, de dramas ou de sports est possible simplement en ajoutant des dictionnaires supplémentaires. Yoshimoto Kogyo travaille également à la commercialisation du système, permettant ainsi au public mondial de comprendre instantanément les punchlines des comédies japonaises.

Des dialectes indiens aux traductions de comédies japonaises, Google utilise l'IA pour numériser plus de 2300 XNUMX langues locales en Asie.

Un avenir qui comble la fracture numérique grâce à l'IA

Qu'il s'agisse du projet Vaani axé sur les dialectes indiens, de SEALD sur les langues d'Asie du Sud-Est ou des applications interculturelles de CHAD 2, l'IA devient un outil essentiel pour la préservation des langues et la diffusion culturelle. Avec l'augmentation de l'échelle des données et l'évolution des modèles, la révolution de la numérisation des langues impulsée par Google permettra à davantage de langues asiatiques de sortir du silence et de s'intégrer au monde numérique mondial.

Mozilla a un plan similaire

Des projets similaires incluent le projet de moteur de reconnaissance vocale open source promu par Mozilla depuis juillet 2017.Projet de voix simultanée (Common Voice), en 2017, a accumulé 7226 heures de contenu vocal, dont 14 langues de niche supplémentaires, portant le nombre de langues incluses à 54. Fin février de cette année, il a été annoncé que8 langues aborigènes taïwanaises, dont l'atayal, le bunun, le paiwan, le rukai, le wanshan, le maolin, le seediq et le sakilaya, avec une durée de données cumulée de plus de 60 heures. Il comprend plus de 200 langues du monde entier, dont le chinois traditionnel taïwanais et le hokkien taïwanais.

Des dialectes indiens aux traductions de comédies japonaises, Google utilise l'IA pour numériser plus de 2300 XNUMX langues locales en Asie.

Tags: AquariumVoix communeGoogleGoogle translateMozillaŌwaraiProjet SEALDProjet Vaanicomédie吉本興業翻译Langue
PartagezTweetPartagez
Mash Yang

Mash Yang

Fondateur et rédacteur en chef de mashdigi.com, et étudiant en journalisme technologique.

留言 Annuler la réponse

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Ce site utilise Akismet pour réduire les indésirables.En savoir plus sur la façon dont Akismet traite les commentaires des visiteurs du site Web.

Traduction (Tanslate)

Dernières mises à jour :

L’IA générative rencontre un obstacle ! La Cour suprême américaine statue que le contenu généré exclusivement par l’IA n’est pas protégeable par le droit d’auteur, ce qui incite le Royaume-Uni à suspendre son projet de loi d’exemption pour la formation des IA.

L’IA générative rencontre un obstacle ! La Cour suprême américaine statue que le contenu généré exclusivement par l’IA n’est pas protégeable par le droit d’auteur, ce qui incite le Royaume-Uni à suspendre son projet de loi d’exemption pour la formation des IA.

2026-03-07
Mac Studio ajoute les spécifications du processeur M2 Max et dévoile simultanément la conception du processeur M2 Ultra

L'IA provoque des pénuries de mémoire ! Le Mac Studio haut de gamme est discrètement abandonné, ce qui entraîne une refonte complète des configurations des ordinateurs portables MacBook.

2026-03-07
La série Xiaomi Mi 17 a été lancée à Taïwan, arborant le logo rouge Leica, le premier objectif à zoom optique continu APO et plusieurs nouveaux produits intelligents AIoT.

La série Xiaomi Mi 17 a été lancée à Taïwan, arborant le logo rouge Leica, le premier objectif à zoom optique continu APO et plusieurs nouveaux produits intelligents AIoT.

2026/03/06 - Mis à jour le 2026/03/07
mashdigi – Technologie, nouveaux produits, actualités intéressantes, tendances

Copyright © 2017 mashdigi.com

  • À propos de mashdigi.com
  • 投放廣告
  • Contactez mashdigi.com

Suivez-nous

Ravis de vous revoir!

Connectez-vous à votre compte ci-dessous

Mot de passe oublié?

Récupérez votre mot de passe

Vous avez déjà une adresse e-mail? Cliquez ici.

Se connecter
Pas de résultat
Voir tous les résultats
  • À propos de mashdigi.com
  • 投放廣告
  • Contactez mashdigi.com

Copyright © 2017 mashdigi.com