MediaTek Research a dévoilé aujourd'hui (4 mars) les nouveaux modèles de la série MediaTek Research Breeze 3 (MR Breeze 3). Cette mise à jour perpétue l'objectif initial de la série Breeze, à savoir se concentrer sur la culture chinoise traditionnelle et taïwanaise, et étend pour la première fois le champ d'application de l'IA au traitement du langage taïwanais. Elle crée ainsi une barrière de sécurité des contenus basée sur l'IA et adaptée au contexte social spécifique de Taïwan.
Parmi eux, le modèle taïwanais de reconnaissance vocale Breeze ASR 26 et le modèle de protection de sécurité Breeze Guard 26 seront mis à la disposition du public en open source. Tous les modèles de la série sont actuellement disponibles en ligne.Compte officiel LINE de Breeze AIPour que le public puisse en faire l'expérience.
Breeze ASR 26 : Surmonter les défis des tons et de l’utilisation mixte, permettant à l’IA de véritablement comprendre le taïwanais.
Le taïwanais possède de riches variations tonales et des systèmes d'écriture diversifiés, ce qui a toujours constitué un défi majeur pour les technologies de reconnaissance vocale. Si les principaux modèles de reconnaissance vocale à travers le monde sont de plus en plus performants pour reconnaître l'anglais et le mandarin, ils peinent souvent à reconnaître le taïwanais.
Pour remédier à ce problème, MediaTek Innovation Base a lancé Breeze ASR 26. Ce modèle, basé sur l'architecture OpenAI Whisper, a été entraîné à l'aide d'environ 10 000 heures de données de synthèse vocale taïwanaise. Contrairement aux données de lecture traditionnelles et rigides, cet ensemble de données de synthèse vocale couvre des scénarios conversationnels plus proches du quotidien, avec des variations naturelles de débit et un vocabulaire familier, et inclut même le mélange de mandarin et de taïwanais auquel les Taïwanais sont très habitués.
Grâce à ces caractéristiques, Breeze ASR 26 est capable d'apprendre les habitudes de langage des locuteurs taïwanais au quotidien. En pratique, même lorsque des mots de mandarin ou d'anglais sont mêlés à la parole (par exemple : « Ton kha-bang est tellement bon, où l'as-tu acheté ? »), le modèle reconnaît instantanément et précisément la parole et la transcrit en texte.
BreezyVoice 26 : A obtenu la note maximale ; l’IA parlait avec un véritable accent taïwanais.
En plus de comprendre, il doit aussi parler naturellement. Après le succès retentissant de BreezyVoice, qui synthétisait un mandarin taïwanais naturel l'an dernier, la nouvelle version BreezyVoice 26 va encore plus loin en permettant à l'IA de « parler taïwanais ».
BreezyVoice 26 est développé sur la base de l'architecture CosyVoice 2 et est également entraîné à l'aide d'une grande quantité de données vocales synthétisées taïwanaises, ce qui lui permet de convertir du texte en parole taïwanaise naturelle et fluide.
La caractéristique la plus remarquable de ce modèle est la qualité de sa parole d'un naturel saisissant. Lors du test de qualité de synthèse vocale (MOS) réalisé par des humains, BreezyVoice 26 a obtenu la note maximale de 5. Les évaluateurs ont unanimement convenu que sa prononciation était d'un réalisme saisissant, notamment grâce à la parfaite maîtrise par le modèle de l'intonation et du rythme des locuteurs taïwanais, à partir d'une vaste quantité de données synthétiques.
Breeze Guard 26 : Un gardien de cybersécurité spécialement conçu pour le contexte social taïwanais.
Au-delà de la maîtrise de la langue, la sécurité des applications d'IA est tout aussi cruciale. La plupart des modèles de sécurité internationaux existants sont conçus pour un contenu en anglais et peinent souvent à évaluer avec précision les scénarios de risque propres à Taïwan (tels que les arnaques locales courantes et les propos discriminatoires dans le contexte de la culture locale).
À cette fin, le MediaTek Innovation Hub a développé le modèle de protection de sécurité par IA Breeze Guard 26. MR Breeze 2 ayant déjà étudié en profondeur les actualités, les forums et les documents publics en chinois traditionnel lors de sa phase de pré-entraînement, il possède une connaissance approfondie de la société et de la culture taïwanaises. Breeze Guard 26 s'appuie sur le modèle Breeze 2 8B et intègre plus de 12 000 points de données d'entraînement spécifiquement conçus pour les scénarios de risque à Taïwan, afin de proposer un entraînement spécialisé.
Ce réseau de protection peut cibler avec précision les contenus nuisibles courants à Taïwan, notamment différents types de contenus textuels tels que le langage vulgaire, la fraude, la désinformation, la discrimination verbale et la manipulation politique.
Promouvoir l'écosystème open source et l'expérience du compte officiel LINE
Afin de développer en permanence des capacités locales complètes en IA à Taïwan et de promouvoir le développement technologique, la base d'innovation MediaTek a également publié le « Breeze Taigi Benchmark » pour l'évaluation de la parole taïwanaise et le « TS-Bench » pour l'évaluation de la sécurité taïwanaise, à l'usage des partenaires académiques et industriels.
Pour les utilisateurs en général, les trois modèles sont actuellement intégrés à [la plateforme/le système].Compte officiel LINE de Breeze AILes utilisateurs peuvent facilement basculer entre trois fonctions principales via le menu : « Écoutez-moi » (transmission vocale taïwanaise en texte), « Lisez-moi » (transmission de texte en parole taïwanaise) et « Contrôle du contenu » (évaluation de la sécurité du contenu).


