Quand on pense aux voix dans les jeux vidéo, qu'est-ce qui nous vient à l'esprit ? Est-ce le comédien de doublage rigide qui ne fait que dire « Bonjour, je suis un PNJ », ou est-ce la situation où, faute de fonds de développement suffisants, tous les dialogues du jeu reposent sur des sous-titres ?

Sur scène lors du Taipei Game Show de cette année, Chao Hsu-Kuang, fondateur de VoAI, a déclaré sans ambages : « Les voix d’IA d’aujourd’hui ne sont plus les voix mécaniques d’hier. » Il ne s’agit pas seulement d’une avancée technologique, mais aussi d’une libération de la productivité et de l’imagination.
Quand la « voix off » n'est plus un « luxe »
Au début de son discours, Chao Xuguang a souligné un phénomène intéressant : à l’ère de la surinformation, nos yeux sont constamment sollicités par des vidéos et des messages de toutes sortes, et l’ouïe est devenue un nouveau champ de bataille pour occuper le temps libre. Que ce soit en voiture, en faisant le ménage ou dans les transports en commun, nos oreilles restent inactives pendant de longues périodes.

Cependant, pour les développeurs de jeux ou les créateurs de contenu, produire un son de haute qualité est souvent hors de prix. Il leur faut non seulement engager des comédiens de doublage professionnels, mais aussi louer des studios d'enregistrement, et le montage en post-production est encore plus onéreux. De ce fait, de nombreux jeux (notamment les jeux indépendants) sont contraints d'abandonner le doublage et d'opter pour une présentation exclusivement textuelle.
« Si un robot pouvait aujourd'hui parler comme une vraie personne, en utilisant votre voix, celle de votre patron, ou même celle d'une célébrité d'Internet, ce serait vraiment intéressant. » Chao Xuguang a souligné que la technologie de base de VoAI vise à rendre les voix off de l'IA bien plus riches que la simple voix monotone de « Miss Google » et ses variations vocales ; elle peut désormais transmettre une large gamme d'émotions (joie, gêne, colère) et même imiter des personnalités spécifiques (comme celles de jeunes femmes, de jeunes hommes ou de conteurs).

Chao Hsu-kuang a également souligné que, malgré la disponibilité de données audio chinoises à l'échelle mondiale, la plupart d'entre elles constituent encore du contenu de formation destiné au marché chinois. Le marché taïwanais, quant à lui, a généralement besoin de données audio plus adaptées au contexte local ; par conséquent, un contenu de formation répondant aux besoins du marché local devrait s'avérer plus précieux.

AI NOWCAST : Votre LINE est votre chaîne d'information IA
Au-delà de la simple fourniture de voix off, VoAI a également présenté une autre de ses applications pratiques : AI NOWCAST, une plateforme de diffusion d'actualités automatisée construite sur LINE.
Son fonctionnement est très simple : il capture le texte des actualités, le réécrit en un script adapté à la diffusion vocale grâce à l’IA, génère le contenu audio et le met enfin à disposition des utilisateurs. Derrière cela se cache en réalité une démonstration des capacités de traitement de l’information de l’IA, notamment la structuration, la synthèse et la reformulation.

Pour l'industrie du jeu vidéo, le potentiel de cette technologie dépasse largement la simple diffusion d'informations. Si ce principe est appliqué aux briefings des quêtes quotidiennes ou aux mises à jour des combats de guilde, les joueurs n'auront plus besoin de déchiffrer des annonces surchargées. Ils pourront entendre directement un personnage IA leur annoncer d'une voix forte : « Chef de guilde ! Notre base a été attaquée la nuit dernière et nous avons subi de lourdes pertes ! » L'immersion s'en trouverait considérablement renforcée.
Avatars IA : ils doivent non seulement parler, mais aussi avoir un « visage ».
Par ailleurs, Chao Xuguang a également présenté la toute dernière technologie de VoAI lors de cet événement : le clonage vidéo par IA. À partir d’une simple photo et d’un enregistrement vocal, l’IA peut donner vie à la personne photographiée et lui faire parler, en synchronisant même ses mouvements labiaux.
Pour les développeurs de jeux, cette technologie offre un avantage considérable par rapport aux méthodes traditionnelles. Auparavant, la création d'un PNJ animé et parlant nécessitait la modélisation 3D, la capture de mouvement (Mocap) et l'animation des expressions faciales, autant d'étapes coûteuses. Grâce à l'intelligence artificielle, une simple illustration 2D, associée à une voix de synthèse, permet de produire rapidement un volume important de contenu narratif.
Chao Xuguang a ensuite proposé le concept de « contenu vidéo produit en masse », qui utilise des agents d'IA pour entraîner l'IA à cibler différents publics et à générer automatiquement des milliers de courtes vidéos variées. Pour le marketing du jeu vidéo, cela signifie qu'une quantité massive de supports publicitaires peut être testée à très faible coût, et que celui qui présente le meilleur taux de conversion utilisateur peut être identifié.


Cela pourrait également ouvrir la voie à de nouvelles opportunités de marché à l'avenir.
Chao Hsu-kuang a indiqué que VoAI propose actuellement des services dans deux grandes catégories : le SaaS (Software as a Service) et l’accès API. La plateforme est principalement développée sur Google Cloud, mais VoAI collabore également avec AWS, Azure et des plateformes de services cloud locales à Taïwan afin de limiter les risques liés au trafic et à l’exploitation du système.
Et KK Company, construite avec les technologies blockchain et d'IATheKeeper, une plateforme de gestion d'avatars numériques alimentée par l'IAEn revanche, Chao Xuguang a expliqué que VoAI possède en réalité une technologie similaire et envisage également la possibilité de se développer en lien avec le marché du divertissement, mais qu'à ce stade, elle collabore principalement avec des groupes créatifs tels que les YouTubeurs et les influenceurs.

Analyse : L’IA est un amplificateur de créativité, et non un substitut.
Chao Xuguang a souligné que la technologie vocale de l'IA comble les lacunes du développement de jeux, là où « nous voulions le faire mais nous ne pouvions pas ».
Souvent, ce n'est pas le désir d'intégrer des voix off complètes qui manque aux développeurs, mais plutôt le budget ; ce n'est pas le désir de créer des présentations dynamiques qui leur fait défaut, mais plutôt les ressources humaines. L'émergence de l'IA générative transforme cependant ces « luxes » en technologies « standard ».
Bien sûr, les voix de l'IA ne peuvent pas encore égaler les nuances émotionnelles des meilleurs comédiens de doublage professionnels. Cependant, en termes de quantité et de rapidité, l'IA a déjà démontré des capacités exceptionnelles. Le processus de développement des jeux vidéo de demain pourrait se dérouler ainsi : l'histoire principale serait interprétée par de véritables comédiens de doublage, tandis qu'une grande partie des quêtes secondaires, des dialogues aléatoires et même des interactions avec les PNJ générées dynamiquement seraient entièrement gérés par l'IA.
Lorsque le coût de génération du son et des images tend vers zéro, il ne reste plus aux développeurs de jeux qu'à mettre à l'épreuve leur créativité et leurs talents de conteurs.


