EMO : l'incroyable IA qui fait parler et chanter les photos

Alibaba vient de dévoiler sa nouvelle IA générative baptisée EMO, capable de faire chanter ou parler une personne d'après une simple photo avec un réalisme saisissant. Le résultat est aussi fascinant qu'inquiétant…

L'intelligence artificielle n'en finit plus de se développer, au point de nous montrer qu'elle peut presque tout faire ! ChatGPT et ses déclinaisons sont déjà capables de générer toutes sortes de texte et de code, tandis Midjourney et compagnie créent des images sur mesure. Mais, après plus d'un an à voir ces outils s'améliorer et obtenir des résultats sans cesse plus époustouflants, l'effet "Wahou" commence à se dissiper, au point que l'on commence à s'habituer à voir l'IA intégrer une multitude de produits et de services. Mais l'intelligence artificielle nous réserve encore des surprises ! Il y a quelques jours, OpenAI dévoilait Sora, sa nouvelle IA capable de générer des vidéos d'un réalisme époustouflant à partir d'une simple description textuelle (voir notre article), tandis que Suno AI a mis au point un outil du même nom capable de générer de la musique en 30 secondes à partir d'une simple demande textuelle (voir notre article). Et le moins que l'on puisse dire, c'est que les résultats sont bluffants !

C'est au tour de l'Institut d'Alibaba pour l'intelligence informatique (Alibaba Cloud Intelligence) de révéler ses dernières prouesses dans un article de recherche publié le 27 février. Le propriétaire chinois d'AliExpress a mis au point un modèle d'IA, baptisé EMO, capable de transformer des photos – plus exactement des portraits couplés avec des bandes-son – en vidéos réalistes grâce à "une synthèse audio-vidéo avancée". Pour le dire simplement, n'importe quelle photo peut se mettre à chanter, le tout avec une précision des lèvres impressionnante. Vous voulez faire chanter du Eminem à une photo de Leonardo DiCaprio à 20 ans ? Faites-vous plaisir !

EMO : faire chanter n'importe quoi à n'importe qui

La qualité de la vidéo générée peut laisser perplexe du fait de son réalisme. Les pommettes et les cordes vocales des figurants bougent, de même que leurs sourcils. Cela fonctionne même avec des personnages animés ou peints comme La Joconde, qui peut alors clamer un monologue de Shakespeare à son aise !

Pour entraîner EMO, les chercheurs ont "constitué une base de données audio-vidéo riche de 250 heures de contenus et de 150 millions d'images", explique l'article. "Les contenus audio sont riches en information concernant les expressions faciales, permettant théoriquement de générer un large panel de mouvements faciaux". Le tour de force réside dans le fait qu'ils aient pu se passer de modèles 3D intermédiaires ou de points de repère faciaux pour donner vie aux portraits. EMO transforme les données audio en animation faciale afin de mieux comprendre les requêtes demandées par les utilisateurs – un peu comme ce que fait Sora en transposant les données visuelles de sa base de données en script. "Notre méthode garantit des animations très expressives et réalistes", souligne l'article.

Les résultats sont époustouflants… et un peu inquiétants. En effet, cette technologie est la porte ouverte à la désinformation, puisqu'elle permet de faire dire n'importe quoi à n'importe qui sur la base d'une simple photo de bonne qualité. Si son utilisation est encore plus simple que ce qui se fait aujourd'hui avec les deepfakes, on n'ose imaginer la pagaille que cela pourrait créer... L'équipe de chercheurs se dit "parfaitement consciente" des problèmes d'éthique que peut générer EMO. Aussi, l'IA n'est pas encore mise à disposition du grand public, et l'équipe de recherche "s'est engagée à explorer des méthodes de détection des vidéos synthétiques".