Point-E : le nouvel outil d'OpenAI peut-il révolutionner la création 3D ?

OpenAI, le créateur de ChatGPT et DALL-E, n'en finit plus de proposer des outils originaux utilisant l'intelligence artificielle ! Point-E, le dernier en date, permet de créer des objets 3D à partir d'indications textuelles. Encore une révolution ?

OpenAI n'en finit plus de révolutionner le monde de l'intelligence artificielle ! Après DALL-E, le générateur d'images à partir de textes, et ChatGPT, le robot capable de tenir des conversations, de répondre à des questions et de produire des textes sur toutes sortes de sujets avec un style et un naturel quasi humains, l'entreprise américaine vient de présenter le 20 décembre 2022 un nouvel outil aussi original et impressionnant que créatif. Baptisé Point-E, il vise à générer des images en 3D – trois dimensions – en couleurs à l'aide de simples indications textuelles. Si ce n'est pas le meilleur logiciel qui existe en termes de rendu visuel, il est de loin le plus rapide à ce jour. Et, surtout, il est très simple à utiliser. Une belle avancée pour les systèmes d'intelligences artificielles génératifs, qui ont décidément beaucoup de succès en ce moment. Les modèles de Point-E et le code sont accessibles sur le dépôt Github d'OpenAI, et tout le monde peut consulter le contenu du projet puisqu'il est en open source.

Point-E : deux IA pour le prix d'une

En temps normal, produire une image de synthèse en 3D demande une puissance de calcul importante et de longues heures, là où Point-E est capable de le faire en une ou deux minutes avec un seul GPU (unité de traitement graphique). Le processus est assez simple. L'utilisateur entre une phrase décrivant l'objet souhaité, et l'intelligence artificielle en produit une vue synthétique via un nuage de points, qui donne la forme global du modèle. "Notre méthode génère d'abord une vue synthétique unique à l'aide d'un modèle de diffusion texte-image, puis produit un nuage de points 3D à l'aide d'un second modèle de diffusion qui conditionne l'image générée", explique OpenAI. Pour le dire plus simplement, Point-E n'a pas recours à une mais à deux IA : une première qui traduit le texte en image – comme DALL-E ou Stable Diffusion – et une seconde qui traduit l'image en modèle 3D.

Point-E a été entrainé grâce au deep learning en s'appuyant sur de nombreuses paires texte/image afin d'associer des mots à des concepts visuels – ce qui est plutôt malin étant donné qu'il en existe bien plus –, puis sur des paires image/modèle 3D, afin d'apprendre à traduire les données. Une véritable innovation ! Et autant dire que la génération d'image 3D en quelques minutes pourrait intéresser de nombreux secteurs.

Point-E : des faiblesses à corriger et des limites à poser

Tout aussi révolutionnaire qu'il soit, Point-E est loin d'être parfait. En effet, si les nuages de points sont faciles à synthétiser, ils ne capturent pas la forme ou la texture de l'objet. Afin de contourner cette limite, l'intelligence artificielle est entraînée à convertir les nuages de points en maillage – une structure de données géométriques qui représente les sommets, arêtes et faces définissant l'objet à l'aide d'un ensemble de polygones. Mais l'IA n'est pas encore tout à fait point et il lui arrive de manquer certaines parties du modèle 3D. Autre problème quant à son utilisation : les images 3D générées par Point-E peuvent permettre de fabriquer des objets bien réels avec une imprimante 3D. Si cela offre de nombreuses possibilités, les dérives sont possibles, comme la fabrication d'armes, qui deviendraient alors facilement accessibles au grand public.

Les possibilités offertes par Point-E devraient intéresser de nombreux secteurs, puisque les modèles 3D sont largement utilisés dans le cinéma, la télévision, la décoration d'intérieur, l'architecture et les industriels – pour la création de véhicules, d'appareils ou de structures par exemple. OpenAI espère que son IA "pourra servir de point de départ pour des travaux ultérieurs dans le domaine de la synthèse en 3D". Mais l'entreprise n'est pas la seule sur le coup. Plus tôt dans l'année, Google avait dévoilé DreamFusion, tandis qu'Epic Games a conçu une application permettant de générer un objet 3D à l'aide de photos prise avec un smartphone.