Microsoft VALL-E 2 : l'IA qui imite la voix humaine à la perfection

Microsoft vient de présenter VALL-E 2, la seconde version de son IA capable de synthétiser la voix de quelqu'un à partir d'un échantillon audio de seulement trois secondes. Le résultat est désormais impossible à différencier d'une voix humaine.

Microsoft avait présenté en janvier 2023 VALL-E – en référence au petit robot de Pixar –, un outil d'intelligence artificielle – et plus précisément un "modèle de langage de codec neuronal" pour la synthèse vocale (Text To Speech) – capable de reproduire n'importe quelle voix (voir notre article). En soi, ce n'était pas nouveau. Ce qui l'était en revanche, c'était sa rapidité d'apprentissage, puisqu'il n'avait besoin que d'un extrait de trois secondes pour "copier" la voix, ainsi que sa capacité à répliquer les émotions de la personne qui parle. En plus, il était capable de créer un enregistrement de mots et de phrases que l'orateur n'avait encore jamais prononcés.

Microsoft franchit une nouvelle étape et vient d'annoncer, dans un billet de blog, sa seconde version, sobrement baptisée VALL-E 2. Jusqu'ici, les productions de l'IA possédaient de petites imperfections dans la formulation ou dans l'intonation qui permettaient de deviner qu'elles étaient artificielles. Or, avec VALL-E 2, les chercheurs de l'entreprise estiment être parvenus à atteindre pour la première fois une "parité humaine", c'est-à-dire que la parole synthétisée ne peut pas être distinguée de celle d'une personne réelle dans les tests de référence. Une avancée majeure dans le domaine de la synthèse vocale, mais qui pose un véritable défi en termes d'éthique et de sécurité.

VALL-E 2 : une voix synthétique impossible à différencier d'une humaine

Pour améliorer le rendu de VALL-E, Microsoft a ajouté deux innovations technologiques majeures dans la manière dont l'IA traite les données vocales : l'échantillonnage sensible à la répétition et la modélisation de code groupé. Le premier permet à l'IA de convertir le texte en parole de manière plus fluide et naturelle, en évitant les répétitions de "jetons" – de petites unités de langage comme des mots ou des parties de mots –, tandis que la seconde accroît l'efficacité de l'outil en réduisant le nombre de jetons qu'il doit traiter dans une seule séquence d'entrée. Cela permet d'accélérer la vitesse de génération de la parole, "même pour les phrases qui sont traditionnellement difficiles en raison de leur complexité ou de leurs phrases répétitives".

Les résultats obtenus sont impressionnants ! Nous vous laissons écouter les différents tests de cette technologie sur la page de Microsoft, afin de juger par vous-même. L'entreprise estime que VALL-E 2 pourrait être utilisé dans différents secteurs, comme "l'apprentissage éducatif, le divertissement, le journalisme, le contenu auto-écrit, les fonctions d'accessibilité, les systèmes de réponse vocale interactifs, la traduction, le chatbot". On pense notamment à des applications de synthèse vocale de haute qualité, à l'édition de la parole – quand l'enregistrement d'une personne est édité et modifié à partir d'une transcription textuelle – ou encore à la création de contenus audio, en VALL-E à d'autres modèles d'IA générative – notamment des vidéos ou de l'animation 3D par exemple. Par ailleurs, Microsoft entrevoit la possibilité de s'en servir pour aider les personnes en situation de handicap.

VALL-E 2 : la porte ouverte à de nouvelles dérives dangereuses

Une telle technologie est incroyable, mais elle n'est malheureusement pas sans risque. Une personne malveillante pourrait l'exploiter pour usurper la voix d'un proche, d'une célébrité ou d'un homme politique lors d'un appel téléphonique, et ainsi obtenir d'importants versements d'argent ou diffuser des informations fausses ou sensibles. Les dérives entraînées par les intelligences artificielles ne datent pas d'hier. Il suffit d'observer les deepfakes – des photos ou des vidéos qui utilisent l'intelligence artificielle pour placer un visage sur un autre visage, et donc reproduire de "fausses" personnes – utilisés pour les revenge porns ou les fake news.

Microsoft en est bien conscient, aussi la firme de Redmond a décidé de ne pas rendre VALL-E 2 accessible au public. Elle précise également que l'outil a été conçu uniquement à des fins de recherche, sans qu'elle n'ait l'intention de l'intégrer par la suite dans un produit ou d'élargir l'accès au public. C'est effectivement plus prudent comme ça...