• Sujets principaux
  • Intelligence artificielle
  • Pilote automatique
  • réseau
  • processeur
  • Téléphone portable
  • Expositions
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 关于 我们
    • À propos de mashdigi
    • coordonnées du site web mashdigi
17/01/2026 05:53 Samedi
  • Connexion
mashdigi – Technologie, nouveaux produits, actualités intéressantes, tendances
  • Sujets principaux
  • Intelligence artificielle
  • Pilote automatique
  • réseau
  • processeur
  • Téléphone portable
  • Expositions
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 关于 我们
    • À propos de mashdigi
    • coordonnées du site web mashdigi
Pas de résultat
Voir tous les résultats
  • Sujets principaux
  • Intelligence artificielle
  • Pilote automatique
  • réseau
  • processeur
  • Téléphone portable
  • Expositions
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 关于 我们
    • À propos de mashdigi
    • coordonnées du site web mashdigi
Pas de résultat
Voir tous les résultats
mashdigi – Technologie, nouveaux produits, actualités intéressantes, tendances
Pas de résultat
Voir tous les résultats
page de garde Dynamique du marché

Le Département des sciences et technologies des données a lancé la version bêta du « Corpus d'IA de la souveraineté de Taïwan », en publiant 6 millions de jetons de données en chinois traditionnel dans la première vague.
Elle agrège des données provenant de plus de 200 agences gouvernementales, y compris celles des secteurs de la culture et des transports ; elle adopte un système de candidature avec nom réel pour remédier au biais culturel qui consiste à transformer « pomme de terre » en « pomme de terre chinoise ».

Écrit par : Mash Yang
2025/12/24 - Mis à jour le 2025/12/25
in Dynamique du marché,  Application , 生活, réseau, Logiciel
A A
0
Partager sur FacebookPartager sur TwitterPartager sur LINE

Afin d'éviter que les modèles d'IA développés à Taïwan ne parlent avec un fort accent pékinois ou ne manquent de sensibilité culturelle locale, le ministère du Développement numérique (MODA) a récemment annoncé le lancement de…« Corpus d'IA sur la souveraineté de Taïwan » (Corpus d'IA souveraine de Taïwan) Version bêta.

Le Département des sciences et technologies des données a lancé la version bêta du « Corpus d'IA de la souveraineté de Taïwan », en publiant 6 millions de jetons de données en chinois traditionnel dans la première vague.

La première vague de diffusion de données concerne plus de 200 organismes gouvernementaux, dont le ministère de la Culture, le ministère de l'Éducation, le Conseil des affaires hakka, le Conseil des peuples autochtones et le ministère des Transports et des Communications. Elle comprend plus de 2 000 ensembles de données, soit environ 600 millions d'éléments de données de haute qualité en chinois traditionnel, couvrant des domaines tels que la culture et les arts, la géographie, la langue, la médecine et les transports. Les applications destinées aux entreprises, aux établissements d'enseignement supérieur et aux instituts de recherche sont disponibles dès aujourd'hui.

Pourquoi avons-nous besoin d'une « IA souveraine » ?

Hou Yi-hsiu, vice-ministre du Développement numérique, a déclaré que tous les pays développent l'IA et que le véritable avantage concurrentiel ne réside pas dans la puissance de calcul (car les GPU sont accessibles à tous), mais plutôt dans les données et les talents. La culture, la langue et les valeurs uniques de Taïwan font que si nous ne le faisons pas nous-mêmes, aucun autre pays ni géant technologique ne le fera à notre place.

Chuang Ming-fen, directrice de la division Innovation des données, a cité un exemple classique : le mot « pomme de terre ». En chinois, « pomme de terre » désigne la pomme de terre (马铃薯) ; or, à Taïwan, il désigne la cacahuète (落花生). Si l’IA est alimentée avec des données incorrectes, le modèle entraîné donnera des réponses erronées, pouvant même engendrer des confusions culturelles. Renforcer la proportion de caractères chinois traditionnels et classiques est crucial pour que les grands modèles de langage (LLM) puissent véritablement comprendre les systèmes politiques, économiques, culturels et axiologiques de Taïwan.

Deux principales catégories de documents sont requises pour la demande ; une « carte d’identité » est requise.

Le corpus actuellement en ligne est divisé en deux parties :

• Données ouvertes :Ouvert et téléchargeable gratuitement.

• Documents d'autorisation (Diffusion restreinte) :À des fins de formation à l'IA uniquement ; une demande et une approbation sont requises.

Afin de garantir la protection des données, les tiers souhaitant utiliser des données autorisées doivent justifier de leur identité au moyen d'un certificat d'identité (personne physique ou morale) et préciser l'objet de leur utilisation. Le service de développement des données examine la demande sous sept jours ouvrés environ avant de fournir un compte autorisé pour le téléchargement. Les formats de fichiers proposés sont actuellement les formats PDF et JSON, conformes aux principes FAIR du partage international des données (données consultables, accessibles, interopérables et réutilisables).

Résoudre le problème le plus épineux du « droit d'auteur » : la licence unique

Pour les développeurs, la plus grande crainte lors de l'entraînement d'IA est de commettre des infractions au droit d'auteur. En réponse, le Département du développement numérique et l'Office de la propriété intellectuelle du ministère des Affaires économiques ont collaboré à l'élaboration de conditions de licence exclusives.

Le modèle de « licence unique » autorise l’utilisation légale du corpus fourni pour l’entraînement de l’IA (y compris la reproduction, la modification et l’édition) avec l’accord du concédant. En contrepartie, le titulaire de la licence (développeur) est tenu d’indiquer la source des données et le contenu produit doit être identifié comme généré par l’IA. De plus, le titulaire de la licence doit s’assurer que les résultats de l’entraînement ne sont pas « substantiellement similaires » au corpus original afin de protéger la valeur marchande de l’œuvre originale.

Analyse : Les données sont le pétrole de l'ère de l'IA, mais la « quantité » et la « qualité » restent des défis.

À mon avis, le lancement du Sovereign AI Corpus par le ministère du Développement des données est une pièce essentielle du puzzle dans l'infrastructure du développement de l'IA à Taïwan.

Au cours de l'année écoulée, de nombreux modèles de chinois traditionnel ont été perfectionnés à partir de Llama ou de GPT. Bien que ces modèles permettent des dialogues fluides, ils présentent souvent des lacunes en matière de droit, d'histoire, de culture autochtone ou de terminologie locale taïwanaise. L'intervention officielle visant à intégrer des données gouvernementales de haute qualité, vérifiées manuellement, a considérablement amélioré la fiabilité des modèles développés localement.

Cependant, 6 millions de jetons représentent une goutte d'eau dans l'océan comparée au volume d'entraînement des modèles linéaires modernes (qui se chiffrent souvent en billions de jetons). Le défi à venir consiste à étendre ce corpus du gouvernement central aux collectivités locales, voire aux entreprises privées. Ce n'est que lorsque davantage de données du secteur privé (médias, éditeurs et établissements d'enseignement supérieur, par exemple) seront intégrées dans le cadre d'autorisations raisonnables et de mécanismes de partage des bénéfices que ce corpus pourra véritablement devenir le cœur de l'IA taïwanaise, et non une simple base de données de réglementations gouvernementales.

Mots clés: AIOpen DataIntelligence artificielleCorpus d'IA sur la souveraineté de TaïwanDépartement Développement NumériqueDépartement numériqueChinois traditionnelDonnées ouvertes
PartagezTweetPartagez
Mash Yang

Mash Yang

Fondateur et rédacteur en chef de mashdigi.com, et étudiant en journalisme technologique.

Laissez un commentaire Annuler la réponse

Votre adresse courriel n'apparaitra pas. Les champs obligatoires sont marqués *

Ce site utilise Akismet pour réduire les spams. Découvrez comment vos données de commentaire sont traitées.

mashdigi – Technologie, nouveaux produits, actualités intéressantes, tendances

Copyright © 2017 mashdigi.com

  • À propos de mashdigi.com
  • 投放廣告
  • Contactez mashdigi.com

Suivez-nous

Ravis de vous revoir!

Connectez-vous à votre compte ci-dessous

Mot de passe oublié?

Récupérez votre mot de passe

Vous avez déjà une adresse e-mail? Cliquez ici.

Se connecter
Pas de résultat
Voir tous les résultats
  • À propos de mashdigi.com
  • 投放廣告
  • Contactez mashdigi.com

Copyright © 2017 mashdigi.com