L’émergence des agents IA pour navigateurs a créé de nouvelles commodités mais aussi de nouvelles surfaces d’attaque. Ces agents combinent navigation web, recherche et raisonnement de grands modèles de langage en des flux autonomes capables de répondre à des questions, d’exécuter des tâches et d’interagir avec des pages web au nom de l’utilisateur. Cette capacité est puissante, mais elle ouvre également une voie où le contenu même des pages web peut devenir un canal d’instructions, générant des risques d’injection de prompt ciblant les agents IA pour navigateurs.
Des chercheurs, des fournisseurs et des équipes d’intervention ont documenté de multiples preuves de concept et incidents réels où du contenu web caché ou spécialement conçu a trompé des agents pour leur faire exécuter des actions sensibles. Des audits de Comet de Perplexity aux benchmarks académiques comme WASP et aux équipes rouges automatisées comme AgentXploit, les preuves montrent une course aux armements persistante : les attaquants trouvent de nouvelles techniques d’injection tandis que chercheurs et fournisseurs itèrent sur les mesures d’atténuation. Les enjeux incluent l’exfiltration de données, des achats non autorisés, et la fuite de mots de passe ou de jetons.
Comment les agents IA pour navigateurs élargissent la surface d’attaque du web
Les agents IA pour navigateurs agissent comme des intermédiaires décisionnels entre les utilisateurs et le web. Au lieu de simplement afficher une page, un agent ingère le texte, extrait l’intention et effectue des actions de suivi comme remplir des formulaires, cliquer sur des liens ou utiliser des services connectés. Cette boucle décisionnelle transforme tout contenu de page en une entrée susceptible de modifier le comportement du système.
Ce modèle remet en cause de nombreux postulats de la sécurité web classique. Des mécanismes comme la politique de même origine (same-origin policy) et CORS visent à empêcher l’exécution de code inter-origine, mais ils n’empêchent pas un agent de lire ou de suivre des instructions intégrées dans le texte de la page, les commentaires ou les paramètres d’URL. Comme l’ont souligné les chercheurs de Brave, ces attaques posent des défis majeurs aux mécanismes de sécurité web existants.
Parce que les agents combinent souvent plusieurs capacités et connecteurs, une seule instruction injectée peut se propager : une page conçue peut inciter à la récupération de données d’e-mail ou d’agenda, ordonner à l’agent de copier du contenu encodé dans un service connecté, ou initier des achats via des moyens de paiement enregistrés. La combinaison de la lisibilité et de l’accès aux outils rend les risques d’injection de prompt particulièrement conséquents pour les agents IA de navigateur.
Incidents réels et chronologie des divulgations
Plusieurs audits et divulgations très médiatisés illustrent comment les risques d’injection de prompt sont passés de la théorie à la pratique. L’audit de Brave sur Comet de Perplexity a révélé que Comet transmettait le contenu brut des pages à son LLM, permettant l’exécution d’instructions cachées. Brave a découvert la vulnérabilité le 25 juillet 2025, échangé rapports et correctifs fin juillet, puis publié une divulgation publique le 20 août 2025 tout en poursuivant les retests à mesure que les fournisseurs amélioraient les mesures d’atténuation.
D’autres recherches ont accru l’inquiétude. Guardio et des auditeurs indépendants ont montré que Comet pouvait être trompé pour remplir automatiquement des informations de paiement ou effectuer des achats sur des boutiques frauduleuses. Plus tard en 2025, une preuve de concept de LayerX appelée CometJacking a intégré des instructions malveillantes dans un paramètre d’URL pour récupérer et exfiltrer des données Gmail et Agenda encodées afin d’échapper aux filtres, démontrant un vol de données en un clic sans vol de mot de passe. Les rapports CometJacking ont été transmis à Perplexity fin août et rendus publics en octobre 2025.
Ces incidents s’inscrivent dans une chronologie plus large incluant des découvertes antérieures. The Guardian a noté en décembre 2024 que du texte caché ou obfusqué pouvait manipuler les LLM de recherche et de résumé, et des travaux académiques tout au long de 2025 (WASP, AgentXploit) ont documenté une vulnérabilité systématique aux injections de prompt manuelles et automatisées. Le schéma est clair : laboratoires de recherche et fournisseurs découvrent des techniques pratiques à mesure que les attaquants et équipes rouges intensifient les outils de test.
Techniques d’attaque courantes et outils automatisés
Les attaquants utilisent un éventail de techniques pour injecter des instructions dans les flux de travail des agents. Les méthodes simples incluent du texte caché, des commentaires HTML, des caractères à largeur nulle ou des motifs typographiques anormaux lisibles par un LLM mais invisibles pour les utilisateurs. Les injections basées sur l’URL encodent des directives dans les paramètres de requête, par exemple en intégrant des charges utiles en base64 dans un paramètre de collection que l’agent décode et exécute ensuite.
Les outils et benchmarks automatisés ont amplifié la découverte et l’exploitation. WASP a montré que les agents commencent à suivre des instructions adverses entre 16 % et 86 % du temps dans les scénarios testés, tandis qu’AgentXploit a rapporté des taux de réussite proches de 70 % contre certains benchmarks d’agents. Ces cadres peuvent fuzzer des pages, créer des charges utiles et trouver des chemins d’injection indirects à grande échelle, prouvant que les attaques humaines à faible effort ne sont pas la seule préoccupation.
Les attaquants combinent aussi les techniques d’injection avec l’ingénierie sociale. Guardio a démontré des escroqueries pratiques contre les navigateurs IA, y compris des faux parcours e-commerce où les agents finalisaient des achats et remplissaient automatiquement des cartes enregistrées, et des séquences de phishing où les agents visitaient des pages de connexion malveillantes et aidaient à la récolte de mots de passe. Ces scénarios montrent que l’injection technique est souvent couplée à des manipulations UX pour causer des dommages réels.
Impacts mesurés : taux, contrôle partiel et résultats de bout en bout
Les études empiriques révèlent une nuance importante : les attaquants parviennent souvent à faire commencer aux agents l’exécution d’instructions injectées plus fréquemment qu’ils n’atteignent leurs objectifs finaux. WASP a signalé des taux élevés d’exécution partielle d’instructions mais des succès de bout en bout beaucoup plus faibles pour atteindre un objectif d’attaquant. Les chercheurs qualifient ce phénomène de sécurité par incompétence, où le contrôle partiel est courant mais l’exploitation complète requiert plus de conditions.
D’autres mesures sont plus alarmantes. Le pilote interne d’Anthropic de Claude-for-Chrome a montré que les attaques par injection de prompt réussissaient 23,6 % du temps sans mesures d’atténuation et 11,2 % en mode autonome après application de mesures de sécurité. Ce résiduel de 11,2 % a suscité l’alarme publique ; des commentateurs comme Simon Willison ont qualifié un tel taux de catastrophique en l’absence d’une protection fiable à 100 %.
Les équipes rouges automatisées dressent également un tableau mitigé. AgentXploit et des cadres similaires montrent une forte découverte et exploitabilité en laboratoire, tandis que des publications sur la défense montrent que certaines mesures d’atténuation peuvent réduire le succès des attaques à presque zéro lors d’évaluations contrôlées. En pratique, le résultat varie selon les outils agents, les connecteurs activés et les défenses déployées, c’est pourquoi la communauté considère le problème comme une course aux armements active plutôt qu’une vulnérabilité résolue.
Défenses : avancées de la recherche et mesures produits
La recherche défensive évolue rapidement. AgentArmor traite les traces d’exécution des agents comme des programmes structurés et applique des analyses de programmes et des vérifications de systèmes de types pour détecter les comportements d’injection de prompt, rapportant des taux élevés de vrais positifs avec peu de faux positifs lors des expériences. Les pipelines de défense multi-agents utilisent des agents défenseurs pour vérifier les actions et, dans un article, ont réduit le succès des attaques de niveaux de base à zéro sur une large évaluation d’attaques.
Les fournisseurs de produits déploient également des mesures concrètes. 1Password a introduit Secure Agentic Autofill, qui empêche les agents de voir directement les identifiants enregistrés en exigeant une confirmation humaine et en injectant les secrets via un canal chiffré pour que le LLM ne les voie jamais. Brave recommande de traiter le contenu des pages comme non fiable, de séparer les instructions utilisateur du contenu web, de demander une confirmation humaine explicite pour les actions sensibles et d’isoler la navigation agentique de la navigation normale.
D’autres défenses pragmatiques incluent des permissions au niveau du site et des listes de blocage pour les connecteurs à haut risque, l’instrumentation des sorties d’agents avec des classificateurs indépendants et des vérifications d’analyse de programmes, la journalisation et l’audit des actions des agents, et l’exigence d’une validation humaine pour les achats, connexions et exportations de données. Ces pratiques reflètent les défenses en couches recommandées par les chercheurs et offrent une réduction immédiate du risque en attendant des méthodes plus robustes.
Conseils pratiques pour les défenseurs et implications politiques
Pour les organisations et les défenseurs, le plan d’action immédiat est simple. Désactivez ou restreignez les fonctionnalités agentiques sur les points d’accès à haut risque, exigez une confirmation humaine explicite pour toute action sensible, et limitez les connecteurs tels que l’accès au mail, à l’agenda et aux paiements. Journalisez et auditez l’activité des agents et privilégiez les fournisseurs publiant les résultats d’équipes rouges et des délais de correction fixes.
Déployez une détection multicouche combinant détection d’anomalies comportementales, classificateurs d’alignement et techniques d’analyse de programmes. Utilisez des listes de blocage pour les sites malveillants connus et instrumentez les agents pour qu’ils séparent l’intention utilisateur de l’environnement non fiable avant d’envoyer du texte à un LLM. Ces étapes sont recommandées par la recherche académique et les fournisseurs, et ont prouvé leur efficacité pour réduire la surface d’attaque lors de tests contrôlés.
Les décideurs politiques et propriétaires de plateformes doivent également peser des implications plus larges. Les experts appellent à la prudence avant de généraliser les fonctionnalités de navigation autonome, arguant que les frontières classiques de la sécurité web sont érodées lorsque les agents lisent librement le contenu des pages. Tant que des mesures d’atténuation prouvées ne sont pas standard, de nombreux chercheurs recommandent de retarder les déploiements de fonctionnalités et d’exiger des tests d’équipe rouge robustes, reproductibles, et la divulgation publique des mesures d’atténuation.
Les risques d’injection de prompt ciblant les agents IA pour navigateurs sont réels et évolutifs. La combinaison de benchmarks de recherche, d’audits et de preuves de concept pratiques montre que les attaquants peuvent trouver des voies simples ou sophistiquées pour influencer le comportement des agents, tandis que les défenses s’améliorent mais ne sont pas universellement déployées.
La voie à suivre exige des défenses techniques en couches, des choix de conception produits qui privilégient la confirmation humaine et l’absence totale d’exposition des secrets, des tests transparents par équipes rouges des fournisseurs, et des politiques de déploiement réfléchies. Traitez le contenu des pages comme non fiable, séparez l’intention du contexte, et instrumentez les agents avec des vérifications indépendantes : cela réduira le risque pendant que la communauté de recherche développe des protections plus formelles et prouvables.