Les navigateurs IA sont dangereux : on peut les pirater avec des instructions cachées

Présentés comme une nouvelle révolution, les navigateurs IA souffrent d'une faiblesse majeure : on peut facilement les pirater en injectant des instructions cachées dans des prompts. Un danger que même OpenAI reconnaît.

Plongées dans la course à l'intelligence artificielle, de plus en plus d'entreprises du secteur de la tech lancent leur navigateur Web basé sur l'IA. Avec eux, elles entendent bien remplacer la navigation traditionnelle par une IA capable de penser et d'agir au nom des utilisateurs. C'est par exemple le cas d'OpenAI avec ChatGPT Atlas – et plus particulièrement son "agent mode" –, de Browser Company avec Dia, de Perplexity avec Comet, ou encore d'Opera avec Neon.

Ces systèmes ne se contentent plus de générer du texte à la demande : ils peuvent lire des pages Web, interagir avec des éléments de l'interface, remplir des formulaires, cliquer sur des liens, gérer des e-mails ou même exécuter des tâches complexes à la place de l'utilisateur. Mais cette avancée technologique s'accompagne d'un défi majeur en matière de sécurité : les attaques par "injection de prompt". Dans un billet de blog publié le 22 décembre 2025, OpenAI, le maître en la matière, reconnaît que son navigateur Atlas, et par extension tous les agents IA, seront toujours vulnérables à ce type de menace.

Navigateurs IA : une porte ouverte pour les cybercriminels

Une injection de prompt est une forme de vulnérabilité propre aux agents Web. Elle exploite le fait que ces intelligences artificielles ne distinguent pas parfaitement les instructions explicites du développeur, celles de l'utilisateur et celles qu'un attaquant peut glisser dans du contenu qu'elles traitent– qui sont souvent invisibles pour l'œil humain. En intégrant des commandes malveillantes dans une page Web, un document ou un e-mail, un pirate peut manipuler le comportement de l'agent pour qu'il exécute des tâches qu'il n'aurait jamais dû faire. Cela peut aller de la simple fourniture de fausses réponses à des actions beaucoup plus graves comme la divulgation de données personnelles, l'envoi de messages non autorisés ou l'exécution de commandes nuisibles.

Un e-mail avec des instructions malveillantes © OpenAI

Dans son billet de blog, OpenAI donne l'exemple d'un attaquant qui rédige un courriel malveillant incitant un agent à transférer des données sensibles, telles que des documents fiscaux, vers une adresse courriel contrôlée par l'attaquant. Un scénario tout à fait classique pour une IA. D'ailleurs, dès le lancement public de ChatGPT Atlas en octobre 2025, des chercheurs ont démontré qu'il suffisait de quelques mots soigneusement placés dans un document Google pour détourner le comportement du navigateur IA.

Pour limiter les risques, l'entreprise de Sam Altman a mis des garde-fous en place. Ainsi, l'agent ne peut ni exécuter du code dans le navigateur, ni télécharger de fichiers, ni installer d'extensions. De même, il n'a aucun accès aux autres applications ni aux fichiers de l'ordinateur. Enfin, sur les sites sensibles — comme ceux des institutions financières par exemple —, il marque une pause pour s'assurer que l'utilisateur surveille bien ses actions. Mais la firme l'avoue elle-même : "l'injection de prompts, à l'instar des arnaques et de l'ingénierie sociale sur Internet, ne sera probablement jamais totalement éradiquée". Elle va jusqu'à reconnaître que le "mode agent" de ChatGPT Atlas "accroît la surface d'attaque".

Navigateurs IA : les mesures pour limiter les risques

Mais si OpenAI et d'autres acteurs du secteur reconnaissent que ces risques sont durables et difficiles à éradiquer, ils ne restent pas inactifs pour autant. L'entreprise de Sam Altman mise notamment sur le red teaming automatisé. Elle utilise une IA entraînée spécifiquement pour attaquer ses propres systèmes et ainsi découvrir de nouvelles vulnérabilités avant qu'elles ne soient exploitées dans le monde réel.

L'agent IA détecte la tentative d'injection de prompt © OpenAI

Par exemple, le système d'attaque automatisé a inséré un courriel malveillant dans la boîte de réception d'un utilisateur. Lorsque l'agent d'IA a analysé cette boîte de réception, il a suivi les instructions cachées du courriel et envoyé un message de démission au lieu de rédiger une réponse d'absence du bureau. Cependant, suite à la mise à jour de sécurité, l'agent a pu détecter la tentative d'injection de code malveillant et la signaler à l'utilisateur. OpenAI considère l'injection de prompt comme un "défi de sécurité à long terme" qui nécessitera des mises à jour continues et une vigilance permanente. Pour faire simple, c'est un éternel jeu du chat et de la souris qui s'engage.

De son côté, Google utilise un modèle d'IA distinct pour Gemini qui vérifie les actions et les bloque si nécessaire. L'accès aux sites Web pertinents pour les tâches est également restreint. Des techniques comme la mise en évidence des éléments importants permettent de prioriser les instructions de l'utilisateur. De plus, le modèle de Gemini est entraîné sur des attaques connues afin d'éviter d'être trompé. Claude, l'IA d'Anthropic, utilise également l'apprentissage avancé, en simulant des attaques par injection de code lors de l'entraînement du modèle.

Navigateurs IA : quel comportement adopter ?

Plusieurs observateurs externes, y compris des agences nationales de cybersécurité, confirment que ces attaques ne pourront probablement jamais être complètement neutralisées. Ils recommandent de concentrer les efforts sur la réduction des impacts plutôt que sur l'illusion d'une sécurité parfaite. Cela signifie renforcer les défenses, limiter l'accès à des données sensibles via des agents, exiger des confirmations supplémentaires pour des actions critiques, et éduquer les utilisateurs sur les risques.

Ces derniers sont d'ailleurs invités à éviter la connexion automatique aux sites Web et à privilégier le mode déconnecté. Avant de confirmer l'exécution de la moindre tâche, mieux vaut examiner attentivement les actions prévues, notamment lors d'un achat ou de l'envoi d'un courriel. De plus, il faut veiller à écrire les instructions le plus clairement possible. Les instructions générales, telles que "Consulte mes courriels", sont à éviter, car elles offrent aux attaquants une plus grande marge de manœuvre pour manipuler les agents d'IA.