Avec Lyria 3, Gemini peut maintenant générer de la musique sur demande

Avec le nouveau modèle Lyria 3, Gemini peut désormais créer de la musique en quelques secondes. Un prompt, une photo ou une vidéo suffisent pour obtenir un morceau de 30 secondes, avec paroles et pochette.

Après les images et les vidéos avec Nano Banana, Gemini se met à la musique ! Comme il l'annonce dans un billet de blog, Google vient d'intégrer à son célèbre chatbot un nouveau modèle, baptisé Lyria 3. Il permet de générer de la musique, avec ou sans paroles, directement depuis le site Web ou l'application via une simple demande écrite, d'images ou de vidéos. Une fonction fort rigolote, mais qui possède de nombreuses limites. Et ce n'est peut-être pas plus mal !

Lyria 3 : des morceaux limités à 30 secondes

Lyria 3 permet à Gemini de créer des pistes musicales d'une durée maximale de 30 secondes, complètes avec instrumentation, voix et paroles si souhaité. Il suffit d'indiquer le style, l'ambiance ou le thème que l'on souhaite entendre, et l'IA compose un morceau original en quelques instants. Il est aussi possible de télécharger une photo ou une vidéo pour que le chatbot l'analyse et génère un morceau adapté à l'ambiance visuelle. Ces pistes, publiées aux formats vidéo et MP3, peuvent ensuite être téléchargées et partagées, accompagnées d'une pochette générée automatiquement par Nano Banana.

La version 3 du modèle promet des morceaux "plus réalistes et musicalement plus complexes" que les générations précédentes. Tous les utilisateurs de Gemini, y compris ceux avec des comptes gratuits, y ont accès dès à présent. Lyria 3 prend en charge plusieurs langues nativement dont le français, l'anglais, l'allemand, l'espagnol, le hindi, le japonais, le coréen et le portugais.

Par soucis de transparence et de traçabilité, Google prend soin d'ajouter dans chaque morceau généré un filigrane numérique imperceptible appelé SynthID. Ce marquage permet d'identifier qu'un contenu audio a été produit par l'IA de Gemini et ainsi empêcher sa commercialisation. Un outil permet d'ailleurs de télécharger un morceau dans Gemini pour lui demander s'il s'agit d'une création IA.

Bien évidemment, Google a pris soin de poser des garde-fous à sa nouvelle technologie. Ainsi, l'IA n'est pas censée être capable d'imiter des artistes existants. Si le nom d'un artiste est utilisé dans une requête, le système se contente de s'en inspirer de manière générale sans reproduire une voix ou une mélodie reconnaissable. De plus, Lyria 3 ne permet pas de générer des morceaux sur des thèmes sensibles ou politiques. Ainsi, l'intelligence artificielle a décliné notre demande de réaliser une version métal du fameux "La République, c'est moi" de Jean-Luc Mélenchon – ce que d'autres outils de génération audio avaient pourtant accepté de faire par le passé.

Comparé à des outils spécialisés déjà sur le marché, comme Suno AI par exemple, Lyria 3 se distingue principalement par son intégration native dans un assistant conversationnel et sa facilité d'accès pour un large public. En revanche, son utilisation est beaucoup plus limitée, notamment au niveau de la longueur de ses capacités de production et de sa sophistication. Le format de 30 secondes est un choix stratégique : suffisant pour des extraits destinés aux réseaux sociaux, mais pas assez pour créer des projets complets, et donc être embêté avec les droits d'auteur. Google insiste particulièrement sur ce point : le but n'est pas de créer un "chef-d'œuvre musical", mais d'offrir "une manière amusante et originale de s'exprimer".

Lyria 3 : comment générer de la musique avec Gemini ?

Pour essayer Lyria 3, il suffit de se rendre dans l'application mobile Gemini ou sur le site de Google Gemini. Voici la marche à suivre :

► Une fois que vous êtes sur l'interface du chatbot, sélectionnez le menu Outils, puis cliquez sur Créer de la musique.

► Gemini vous propose de choisir un style prédéfini styles musicaux à partir d'un carrousel de genres populaires (rap des années 90, afropop, folk a capella, K-pop, 8 bits, romance R&B, etc.). Cette étape est optionnelle : vous pouvez soit cliquer sur celui qui vous intéresse, soit passer directement à la phase suivante.

► Dans le champ de saisie, écrivez ce que vous souhaitez obtenir. Vous pouvez notamment demander un morceau dans u style qui n'est pas proposés, y compris purement instrumental, mais aussi importer une photo ou une vidéo.

► Patientez quelques secondes, le temps que l'IA fasse son travail. Elle va alors faire apparaître une piste audio de 30 secondes accompagnée d'une pochette d'album générée par le modèle d'image Nano Banana.

► Il ne vous reste plus qu'à sauvegarder et à partager le résultat via un lien direct.

Cette nouvelle fonction a été pensée pour les débutants. Elle ne nécessite aucune compétence, si ce n'est de savoir écrire. Pour obtenir un résultat, Google recommande la formule suivante : [Genre/Époque] + [Tempo/Humeur] + [Instruments Spécifiques] + [Style Vocal] + [Thème des Paroles].

Nous avons demandé à Gemini de générer "une chanson avec des paroles à la gloire du média français "Comment ça marche", en parlant de ses thématiques préférées, de son sérieux et sa rigueur, et de l'équipe qui l'anime", le tout dans le style "Entrainement". Il a produit un résultat digne d'un générique de dessin animé des années 80, plutôt entrainant malgré des rimes assez pauvres (écouter le résultat).

Nous avons également essayé de générer un morceau à partir d'une photo de l'animal de compagnie d'un membre de la rédaction. Là encore, le résultat était mignon à souhait et prêtait à sourire (écouter le résultat). En revanche, l'IA était complètement aux fraises pour la génération de la pochette des titres dans les deux cas.

Nous avons également demandé un genre nettement moins populaire, en l'occurrence un instrumental de jazz-rock avec un chorus de guitare. Et il s'en étonnement bien sorti (écouter le résultat). La preuve que Lyria 3 peut couvrir un large panel de genres musicaux.

Il ne reste plus qu'à attendre pour savoir comment OpenAI va réagir à cet ajout, Google et son concurrent ayant l'habitude de se rendre coup sur coup à chaque innovation.