VALL-E : l'IA de Microsoft qui imite les voix humaines

Microsoft vient de présenter VALL-E, une IA capable de synthétiser la voix de n'importe quelle personne à partir d'un échantillon audio de seulement trois secondes, avec toutes ses émotions. Une technologie prometteuse mais effrayante...

Microsoft compte décidément beaucoup sur les intelligences artificielles (IA) développées par OpenAI ! En effet, la firme compterait investir 10 milliards de dollars dans cette société – en plus du milliard de dollars déjà investis en 2019 – et intégrer l'IA conversationnelle ChatGPT à sa suite Microsoft 365 et à son moteur de recherche Bing. Et ce n'est que le début ! En effet, elle vient de publier une démonstration de son nouvel outil d'intelligence artificielle. Appelé VALL-E – en référence au générateur d'images DALL-E, toujours développé par OpenAI –, il est capable de reproduire n'importe quelle voix. En soi, ce n'est pas nouveau. Ce qui l'est en revanche, c'est sa rapidité d'apprentissage, puisqu'il n'a besoin que d'un extrait de trois secondes pour "copier" la voix, ainsi que sa capacité à répliquer les émotions de la personne qui parle. En plus, il est capable de créer un enregistrement de mots et de phrases que l'orateur n'a encore jamais prononcés. Et ce n'est qu'un début, puisque ce type d'IA s'améliore avec le temps. Les résultats sont aussi prometteurs qu'ils sont inquiétants, ouvrant la porte à de nombreuses dérives...

VALL-E : une voix plus vraie que nature à partir d'un extrait de 3 secondes

VALL-E est un "modèle de langage de codec neuronal" pour la synthèse vocale (Text To Speech), c'est-à-dire qu'il peut synthétiser une voix à partir d'un texte écrit. Pour cela, les chercheurs ont eu recours à du machine learning et ont entrainé l'IA avec plus de 60 000 heures de données vocales en anglais prononcées par plus de 7 000 locuteurs lisant des livres audio gratuits du domaine public disponibles sur LibriVox.

Microsoft a partagé plusieurs extraits obtenus sur Github. Le premier tableau est divisé en quatre colonnes qui contiennent chacune un audio. La première, intitulée "Speaker Prompt", est l'audio de trois secondes qui permet à VALL-E de synthétiser une voix. La deuxième, "Ground Truth", est un enregistrement réalisé par le même locuteur afin de pouvoir le comparer avec le résultat obtenu par l'IA de Microsoft. La troisième, "Baseline", est un extrait obtenu avec une synthèse vocale conventionnelle. Enfin, la colonne "VALL-E" contient l'extrait prononcé par l'IA de Microsoft.

Par la suite, d'autres extraits et comparaisons sont proposés afin que l'on puisse se rendre compte que l'intelligence artificielle est capable de générer des grains de voix/tonalités aléatoires. Ainsi, une même phrase prononcée deux fois par l'IA n'aura pas le même résultat. De même, elle peut conserver l'environnement acoustique de l'extrait pour synthétiser la "fausse" voix, mais aussi conserver l'émotion originale – Microsoft nous propose ainsi des exemples pour la colère, l'endormissement, l'amusement, le dégoût et la neutralité. Pour le moment, les résultats sont assez inégaux : la voix synthétisée est tantôt robotique, tantôt réellement bluffante. Mais VALL-E va sûrement s'améliorer avec le temps étant donné qu'il n'en est qu'à ses tout débuts.

VALL-E : la porte ouverte à de nouvelles dérives dangereuses

VALL-E pourrait être utilisé pour des applications de synthèse vocale de haute qualité, pour l'édition de la parole – quand l'enregistrement d'une personne est édité et modifié à partir d'une transcription textuelle – ou encore pour la création de contenus audio en le combinant à d'autres modèles d'IA générative – notamment des vidéos ou de l'animation 3D par exemple. Toutefois, au contraire de ChatGPT et de DALL-E qui sont open source, Microsoft n'a pas partagé le code de son IA, et ce dans le but d'éviter des dérives. Il n'est donc pas possible de tester l'IA soi-même pour le moment.

Cela est dû au fait que VALL-E soulève des questions de morale, d'éthique et de sécurité : un tel outil ne pourrait-il pas être dangereux s'il était ouvert au grand public ? C'est en tout cas une question qui travaille à juste titre Microsoft, qui explique que,"étant donné que VALL-E pourrait synthétiser la parole qui fait l'identité d'un locuteur, il peut comprendre des risques d'utilisation abusive, tels que l'usurpation d'identification vocale ou l'usurpation d'identité d'un locuteur spécifique. Pour atténuer ces risques, il est possible de construire un modèle de détection afin de déterminer si un clip audio a été synthétisé par VALL-E. Nous mettrons également en pratique les principes de Microsoft AI en matière d'éthique lors du développement ultérieur des modèles."

Les dérives entrainées par les intelligences artificielles ne datent pas d'hier. Il suffit d'observer les deepfakes – des photos ou des vidéos qui utilisent l'intelligence artificielle pour placer un visage sur un autre visage, et donc reproduire de "fausses" personnes – utilisés pour les revenge porns ou les fakenews, le détournement de ChatGPT en outil de triche dans le milieu scolaire, ou encore la création d'applications du même genre visant à arnaquer les utilisateurs. On vous laisse imaginer les désastres qu'entrainerait l'allocution d'un homme ou d'une femme politique modifiée par cette intelligence artificielle... C'est pourquoi il est primordial de mettre en place des protections avant de démocratiser VALL-E. Et encore, ce n'est pas sûr que cela suffise....