VASA-1 : l'IA de Microsoft qui fait parler les portraits de façon ultraréaliste

Microsoft dévoile VASA-1, une intelligence artificielle qui permet d'animer des photos et de les faire parler de façon ultraréaliste. Le résultat est tout simplement saisissant ! Reste à éviter les dérives…

Microsoft mise gros sur l'intelligence artificielle, au point d'y investir des dizaines de milliards de dollars. C'est bien simple, l'entreprise en intègre dans tous ses services, qu'il s'agisse de sa suite bureautique Microsoft 365, de son navigateur Edge, de son moteur de recherche Bing, de ses outils Windows... Grâce à son partenariat avec OpenAI, elle développe des technologies incroyables, comme son assistant Copilot, son générateur d'images ou VALL-E, l'IA qui imite des voix humaines. Cette fois, la firme de Redmond dévoile sur son blog VASA-1, une intelligence artificielle capable d'animer des photos de visages et de les faire parler de façon ultraréaliste. Pour cela, il suffit d'une photo prise en mode portrait et d'un audio pour qu'elle produise une vidéo qui offre une synchronisation labiale précise, des animations faciales bluffantes et des mouvements de tête naturels. Un résultat aussi incroyable qu'inquiétant…

VASA-1 : des résultats impressionnants de réalisme

Les chercheurs de Microsoft ont réussi ce tour de force en combinant plusieurs technologies complexes associées à du deep learning. VASA-1 est capable de générer des vidéos en haute définition (512x512) et d'une cadence de 40 images par seconde. Nous le répétons, mais le résultat est juste époustouflant. On a l'impression de voir de vraies personnes qui parlent, avec toutes les nuances et les subtilités des expressions faciales. Les lèvres bougent en rythme avec les paroles, les yeux clignent et regardent naturellement – quoique le regard soit parfois un peu vide –, les sourcils se lèvent et se froncent… En plus, l'IA peut animer des illustrations, prendre en charge des audios dans différentes langues, et même du chant. On peut d'ailleurs voir la Joconde s'essayer au rap, et autant dire que ça vaut le détour. Quelques détails trahissent bien la supercherie. Les expressions peuvent paraître un poil exagérées, tandis que les nombreux mouvements de tête peuvent avoir un côté quelque peu artificiel. De plus, l'IA ne gère que le haut du corps et ne prend pas en compte les éléments non rigides, comme les cheveux ou les vêtements. Mais à part ça, le résultat est impressionnant !

À l'avenir, VASA-1 pourrait être très utile pour tout ce qui nécessite des avatars parlants réalistes, par exemple dans les jeux vidéo, pour les outils pédagogiques, dans le cadre de thérapies, etc. Mais le résultat est si réaliste que l'on peut légitimement avoir des inquiétudes quant au phénomène de deepfakes qu'une telle technologie peut engendrer. Les équipes de Microsoft en sont parfaitement conscientes et admettent que VASA-1 "pourrait être utilisé à mauvais escient pour usurper l'identité d'êtres humains". Aussi, les chercheurs n'ont "pas l'intention de publier une démo en ligne, une API, un produit, des détails de mise en œuvre supplémentaires ou toute offre connexe tant [qu'ils] ne [sont] pas certains que la technologie sera utilisée de manière responsable et conformément aux réglementations appropriées". Heureusement, car on se souvient encore du faux audio d'Emma Watson en train de réciter du Mein Kampf...