ElevenLabs : l'IA qui reproduit les voix humaines à la perfection

ElevenLabs : l'IA qui reproduit les voix humaines à la perfection

Toujours plus fort ! ElevenLabs a mis au point une IA capable de reproduire à la perfection des voix humaines. Mais il n'a pas fallu longtemps avant qu'elle ne soit détournée pour faire tenir des propos racistes et homophobes à des célébrités…

C'est un fait, les avancées technologiques entrainent autant de dérives que de bénéfices. Il suffit d'observer l'engouement autour de ChatGPT depuis sa sortie et les multiples opportunités que l'outil ouvre... y compris pour les hackers. En effet, les applications clones malveillantes se multiplient sur l'App Store et le Play Store, tandis que les pirates tentent d'utiliser l'IA pour trouver les vulnérabilités des sites Internet et mettre au point des malwares. Dans la même optique, l'émergence des deepfakes s'est accompagnée de nouveaux revenge porn – en plaçant le visage de quelqu'un sur une photo ou vidéo pornographique – et de la diffusion de fake news – comme la fausse capitulation du président ukrainien par exemple. Et ce n'est pas près de s'arrêter ! La semaine dernière, la start-up ElevenLabs a mis gratuitement à destination du public la version bêta de sa nouvelle IA, qui est capable de créer des voix à partir d'une simple description écrite. Mieux – ou pire – encore, elle peut prendre la voix d'une personne existante, à qui il est alors possible de faire dire tout ce que l'on souhaite. Une fausse bonne idée ?

ElevenLabs : des enregistrements détournés avec des propos violents

L'outil de ElevenLabs se base sur GPT-3, le modèle de langage qui a été utilisé pour ChatGPT et le générateur d'images DALL-E. Comme ce dernier, il est très simple à utiliser : il suffit de s'inscrire et d'écrire un texte – uniquement en anglais pour le moment – pour que celui-ci soit ensuite récité par des voix synthétiques mais réalistes. Il peut aller plus loin en générant un clone de la voix d'une personne existante à partir d'un échantillon d'enregistrement d'une durée de plus d'une minute grâce à la fonction VoiceLab. En principe, il s'agit d'utiliser l'IA pour la création – comme pour le doublage d'un jeu vidéo par exemple –, la production de livres audio, ou encore le doublage d’articles ou de newsletters – ce qui offre donc une plus grande accessibilité à l'information.

Malheureusement, il n'a pas fallu plus de quelques jours pour que les choses dérapent. "Alors que nous voyons notre technologie être massivement utilisée de façon positive, nous constatons aussi un nombre croissant de cas d'utilisation abusive du clonage de la voix" a rapidement signalé ElevenLabs sur Twitter. En effet, des journalistes de Motherboard ont découvert sur le forum 4chan des extraits audio dans lesquels on entend des personnalités célèbres tenir des propos violents, racistes ou homophobes. L'un d'eux, par exemple, utilise la voix d'Emma Watson pour lire des extraits de Mein Kampf...

Suite à cela, ElevenLabs a annoncé suspendre temporairement l'accès gratuit à sa plateforme, le temps de mettre en place des protections et des limites pour empêcher que de tels détournements puissent de nouveau avoir lieu. L'IA est actuellement de nouveau accessible, mais l'entreprise va mettre en place d'ici la semaine prochaine un outil qui permettra d'identifier les voix issues du programme. Ensuite, étant donné que la plupart des échantillons problématiques ont été produits à partir de comptes anonymes et gratuits, elle va instaurer dès que possible une vérification d'identité supplémentaire en rendant VoiceLab accessible uniquement aux comptes payants – afin d'avoir au moins leurs coordonnées bancaires pour les rendre moins anonymes. Cet abonnement devrait coûter 5 dollars par mois avec un essai gratuit pour générer 30 000 personnages. L'offre gratuite avec 10 000 personnages par mois et des voix préformées sera quant à elle toujours disponible – mais il faudra là aussi renseigner ses informations de paiement.

Guide technologies