DALL-E meilleur que Midjourney ? Les images incroyables de l'IA

Midjourney a un sérieux concurrent avec DALL-E ! OpenAI prépare une nouvelle version de son IA générative d'images qui donnerait des résultats absolument bluffants comme les premiers tests le montrent. Attention les yeux !

Les IA génératrices d'images fascinent les internautes en créant en quelques secondes, via de simples demandes textuelles, d'incroyables images aux styles artistiques très variés. Peinture abstraite, dessin de manga, photo réaliste, portrait au crayon... Rien n'est impossible ! Se trouvent sur le devant de la scène Stable Diffusion, Bing Image Creator, Adobe Firefly et Midjourney, ce dernier tirant clairement son épingle du jeu, notamment avec sa version 5, tout bonnement bluffante (voir notre article). OpenAI, les développeurs de ChatGPT, n'ont cependant pas l'intention de rester sur le banc de touche avec DALL-E. Or, si leur IA est déjà accessible au grand public, elle est toujours en cours de développement et reste assez rudimentaire.

D'après nos confrères de Decrypt, la start-up testerait en privé une nouvelle itération de son outil, dont le YouTubeur MattVidPro AI, avec plus de 203 000 abonnés, a dévoilé les premiers résultats. "C'est extrêmement excitant, cela explose tout ce que nous avons vu auparavant, c'est fou", s'enthousiasme celui-ci. "Midjourney ne peut pas rivaliser à ce niveau - je ne pense même pas que la version 6 de Midjourney serait capable de rivaliser à ce niveau." Et effectivement, on peut d'ores et déjà voir de nettes améliorations, notamment au niveau de la représentation des mains. Petite particularité cependant : l'IA ne serait pas encore censurée…

DALL-E : pas de censure et un énorme potentiel

D'après les images partagées, cette nouvelle version de DALL-E n'a rien à voir avec la version publique et se rapproche beaucoup plus de ce que l'on peut obtenir avec Midjourney. Les images sont précises, nettes et bien construites. Il n'y a pas de problème anatomique, l'IA ayant normalement tendance à ne pas placer les membres correctement et à défier les lois de la nature. C'est en particulier le cas des oreilles et des mains, qui n'ont pas toujours le bon nombre de doigts. Ici, le YouTubeur se concentre sur un "check" entre un panda et un arlequin sur des vélos et montre des résultats impeccables. Cette nouvelle version est également capable d'insérer du texte dans ses images, ce qui est en général très compliqué pour les IA génératives. L'outil peut même reproduire une jaquette de GTA, une boîte de jeu de société, ou encore le logo de Subway. Notons également que les émotions sur les visages sont édifiantes.

Normalement, les IA sont équipées de garde-fous, de filtres, afin d'éviter la production de contenu sexuel, violent, haineux ou illégal. La version initiale de DALL-E allait même jusqu'à ne pas générer de représentation de personnalités publiques ni de sujet sensible, comme la guerre en Ukraine ou Emmanuel Macron pendant la réforme des retraites par exemple – ce dont Midjourney ne s'était pas privé (voir notre article). Or, d'après le YouTubeur, OpenAI n'a pas encore appliqué de restrictions afin de mesurer le plein potentiel de son nouvel outil. Nul doute que la start-up en rajoutera par la suite, car elle est attendue au tournant sur ce point par les régulateurs. Si DALL-E est bel et bien accessible en ligne, moyennant la création d'un compte, il ne faut pas espérer pouvoir tester cette nouvelle version de sitôt. Selon Matt, seules 400 personnes dans le monde ont accès au nouveau générateur d'images OpenAI.