Le web est en train de se transformer discrètement, passant d’une collection de pages destinées aux humains à un espace d’action pour les agents d’IA. Au lieu de simplement lire du contenu, des systèmes comme l’Agent ChatGPT d’OpenAI, Atlas, et les services Microsoft compatibles NLWeb considèrent la structure des pages, les liens, les invites et même les politiques de gouvernance comme des signaux qui pilotent le “pilotage automatique agentique” : une IA capable de naviguer, cliquer, taper et coordonner des tâches sur internet en notre nom.
Comprendre ces signaux web devient essentiel pour quiconque construit des produits, des flux de travail ou des politiques autour des agents d’IA. Des arbres DOM et classements de recherche aux validations utilisateurs et journaux de politique, le web moderne devient un tissu dense d’indices qui indiquent aux agents ce qu’ils peuvent faire, ce qu’ils doivent faire, et quand ils doivent rendre le contrôle aux humains. Cet article explore le fonctionnement de ces signaux dans les principaux systèmes agentiques actuels, et ce qu’ils signifient pour l’émergence du Web Agentique.
Des pages aux espaces d’action : que sont les signaux web ?
Dans un navigateur traditionnel, le web est principalement visuel : les utilisateurs voient du texte, des boutons, des formulaires et des liens, puis décident sur quoi cliquer ensuite. Le pilotage automatique agentique inverse cette logique. Pour des agents comme l’Agent ChatGPT d’OpenAI, le web est un environnement structuré fait de signaux : nœuds DOM, attributs, réponses HTTP, états d’erreur et invites utilisateur. Chacun de ces éléments devient partie d’un “espace d’action” latent sur lequel le modèle raisonne pour décider de sa prochaine étape.
L’annonce de l’Agent ChatGPT de juillet 2025 d’OpenAI rend cela explicite : l’agent fonctionne sur un ordinateur virtuel et navigue de façon autonome sur les sites web, cliquant sur des boutons, remplissant des formulaires et agrégeant des informations pour accomplir des tâches multi-étapes comme préparer des briefs clients ou analyser des concurrents. L’agent ne reçoit pas d’API de haut niveau ; il voit les éléments d’interface web et les réponses réseau, les traitant comme des signaux suggérant des actions et contraintes possibles.
Ce cadrage est désormais courant dans la catégorie émergente des navigateurs IA. L’entrée Wikipédia de 2025 sur les navigateurs IA définit les “navigateurs agentiques” comme ceux où la navigation, le clic et le remplissage de formulaires peuvent être faits de façon autonome. Les arbres DOM, formulaires, liens et sémantiques au niveau du site ne sont plus de simples détails de présentation ; ils deviennent des surfaces de signaux standardisées qui encodent des possibilités pour les agents, tout comme les raccourcis clavier et menus le faisaient autrefois pour les utilisateurs experts humains.
Pilotage automatique agentique précoce : Operator, Agent ChatGPT et l’API Responses
Operator d’OpenAI, introduit début 2025, fut l’un des premiers “agents utilisateurs d’ordinateur” largement visibles. Selon Reuters, il a appris à lire et agir sur les éléments d’interface web , boutons, menus, champs de texte , pour réaliser des tâches comme planifier des voyages, gérer des réservations ou organiser des listes de tâches. Operator interprétait les indices visuels et structurels du web comme des signaux décrivant quelles actions étaient possibles dans chaque contexte donné.
Fait crucial, Operator traitait également les validations utilisateur comme des signaux de contrôle. Les actions sensibles, comme saisir des identifiants ou effectuer des réservations, nécessitaient une confirmation explicite, intégrant ainsi le consentement humain dans la boucle de signaux qui régit le comportement du pilotage automatique. Cette combinaison d’opportunités d’interface utilisateur et d’approbation humaine annonçait la manière dont les systèmes ultérieurs intégreraient la sécurité et la supervision dans la pile de signaux.
Le même schéma apparaît dans l’API Responses d’OpenAI, lancée en mars 2025 comme principale plateforme pour construire des systèmes agentiques. Ici, la recherche web n’est pas seulement une aide à la génération de texte ; c’est une source de signaux explicite. Les outils de recherche comme gpt-4o search renvoient des réponses à jour avec citations, transformant classements, extraits et pages liées en entrées structurées que les agents doivent interpréter. Les outils d’utilisation d’ordinateur ajoutent une autre couche de signaux : état de l’interface, contexte du navigateur, latence et messages d’erreur qui informent les décisions de réessayer, changer de stratégie ou faire appel à un humain. Ensemble, ces signaux forment l’épine dorsale des flux de travail semi-autonomes de niveau production.
Atlas et les navigateurs IA : le contexte web persistant comme signal à long terme
Avec le lancement du navigateur Atlas fin 2025, le pilotage automatique agentique est passé d’une fonctionnalité additionnelle à un paradigme de navigation par défaut pour certains utilisateurs. Atlas intègre ChatGPT directement dans l’expérience de navigation afin qu’il puisse planifier des événements, commander des courses ou éditer des documents sur différents sites. Le navigateur n’est plus une fenêtre passive ; c’est un moteur de contexte qui alimente en continu l’agent en signaux.
L’innovation la plus importante d’Atlas est la mémoire persistante. Comme le rapporte PC Gamer, le système suit l’historique de navigation, les préférences utilisateur, les pages visitées et l’historique des tâches entre les sessions. Ces traces servent de signaux web continus pour la planification à long terme, permettant à l’agent de maintenir la continuité , par exemple, se souvenir de la marque de courses préférée d’un utilisateur ou réutiliser un itinéraire antérieur comme modèle. Les interactions web deviennent un flux de données longitudinal plutôt qu’une série de clics sans état.
Ce nouveau pouvoir s’accompagne d’avertissements explicites : Atlas demande aux utilisateurs de “peser les compromis” avant d’accorder une grande autonomie. Les états d’autorisation, paramètres de confidentialité et bascules d’autonomie deviennent eux-mêmes des signaux critiques. Un agent peut voir la même page dans deux contextes différents , l’un avec le pilotage automatique complet activé, l’autre en mode restreint , et doit traiter les mêmes opportunités d’interface différemment selon la politique choisie par l’utilisateur. Les navigateurs agentiques font ainsi des préférences et du consentement utilisateur des signaux web de premier ordre, au même titre que le HTML et le HTTP.
Benchmarks et entraînement : apprendre aux agents à lire les signaux web
Construire des agents capables d’interpréter et d’agir de façon fiable sur les signaux web nécessite plus que de plus grands modèles ; cela exige de nouveaux benchmarks et méthodes d’entraînement adaptés à la navigation. Le benchmark BrowseComp d’OpenAI, publié en avril 2025, illustre ce changement. Avec 1 266 questions conçues pour nécessiter une navigation web persistante, BrowseComp mesure la capacité des agents à exploiter des signaux comme les liens, résultats de recherche, pertinence du contenu et chemins de navigation multi-étapes.
La conception de BrowseComp pousse les agents à privilégier des réponses précises et vérifiables plutôt que des spéculations verbeuses. Chaque question cible des “informations difficiles à trouver et entremêlées” et attend des réponses courtes, facilement vérifiables. Cette structure encourage des comportements comme des séquences de clics précises, un usage judicieux de la recherche et une gestion robuste des pages bruyantes ou trompeuses. Les performances sur BrowseComp deviennent un indicateur de la capacité d’un agent à convertir des signaux web bruts en résultats fiables.
Côté entraînement, des techniques comme le Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) réunissent signaux web et visuels. L’article Visual-ARFT de mai 2025 montre comment de grands modèles vision-langage peuvent être entraînés par renforcement à naviguer sur des sites web et manipuler des images en utilisant à la fois la mise en page visuelle et le contenu textuel comme signaux. Le Multi-modal Agentic Tool Bench (MAT) associé évalue deux contextes : MAT-Search pour la recherche/navigation web et MAT-Coding pour les outils basés sur l’image. Visual-ARFT apporte des gains substantiels sur MAT-Search et les questions multi-hop en optimisant explicitement les agents pour réagir à des signaux multi-modaux tels que la structure de page, les résultats de recherche et les régions d’image. L’avenir des agents de navigation est intrinsèquement multi-modal.
Signaux humains dans la boucle : garde-fous, supervision et gouvernance
À mesure que les capacités de pilotage automatique grandissent, le besoin d’une supervision humaine nuancée augmente aussi. Magentic-UI, introduit en juillet 2025, explore ce que signifie traiter les retours et contraintes humains comme des signaux web de premier ordre. Il s’agit d’une interface web multi-agents conçue pour étudier la collaboration humain-agent à travers la navigation, l’exécution de code et la manipulation de fichiers.
Dans Magentic-UI, les interventions utilisateur , validations, modifications, changements de trajectoire , sont traitées comme des signaux de supervision qui façonnent le comportement de l’agent au fil du temps. Les garde-fous d’action définissent des contraintes sur les actions web sensibles, comme empêcher un agent de soumettre des informations financières sans approbation. Ces mécanismes encodent effectivement la politique organisationnelle et l’intention utilisateur dans la même couche de signaux que celle utilisée par les agents pour interpréter les pages, faisant de la gouvernance une partie de l’environnement plutôt qu’un ajout après coup.
Cette philosophie de l’humain-dans-la-boucle s’étend à la gouvernance d’entreprise et d’écosystème. Le travail de Microsoft sur l’évolution de la gouvernance Power Platform pour les agents IA, cité dans la littérature sur le Web Agentique, met en avant comment journaux, traces d’audit, signaux de risque et politiques de conformité deviennent des méta-signaux au-dessus des interactions web brutes. Avec des prévisions de 1,3 milliard d’agents d’ici 2028, les organisations devront traiter la télémétrie de gouvernance , qui a fait quoi, où, et avec quel résultat , comme un flux de signaux continu qui contraint, surveille et améliore le pilotage automatique agentique à grande échelle.
Le Web Agentique et NLWeb : traiter le contenu comme une API en langage naturel
La vision plus large derrière ces technologies est celle du “Web Agentique”, décrite dans une littérature de recherche croissante et résumée dans une entrée Wikipédia de 2025. Dans ce cadre, l’internet évolue vers un réseau décentralisé d’agents IA qui découvrent, communiquent et collaborent de façon autonome à travers les services numériques. Le web devient une “couche d’intelligence” où les interactions et signaux inter-agents génèrent des comportements émergents comme la négociation, la créativité compositionnelle et la redondance.
Le cadre NLWeb (Natural Language Web) de Microsoft propose un plan concret pour cette évolution. Documenté dans Signal Magazine, NLWeb suggère que les sites web devraient exposer leurs fonctionnalités afin que les agents puissent les invoquer via le langage naturel plutôt que par des API rigides. Le texte des pages, les métadonnées structurées et les annotations sémantiques deviennent des signaux explicites, lisibles par machine, qui guident les actions des agents, transformant effectivement tout site compatible NLWeb en une API souple. Au lieu de développer des intégrations personnalisées pour chaque service, les agents apprennent à lire et suivre des contrats en langage naturel intégrés au site lui-même.
Cette approche s’aligne avec la définition du web agentique comme écosystème ouvert où les agents gèrent des tâches complexes et collaborent entre sites pour le compte des utilisateurs. Les signaux web interopérables , du balisage sémantique aux descripteurs de politique , en sont des prérequis. Tout comme HTTP a standardisé la récupération des documents, NLWeb et les efforts associés visent à standardiser la manière dont les fonctionnalités et contraintes sont exprimées en des termes compréhensibles et actionnables par les agents.
Pilotage automatique en entreprise et pour le code : journaux, métriques et signaux IDE
En entreprise, les signaux web vont bien au-delà des pages publiques et des résultats de recherche. L’API Responses et le SDK Agents d’OpenAI sont explicitement positionnés pour les entreprises qui construisent des agents capables d’orchestrer des outils comme la recherche web, la recherche de fichiers et l’utilisation d’ordinateur dans des flux de travail complexes. TechTarget rapporte que les entreprises utilisent ces capacités pour obtenir des réponses rapides et précises avec citations, transformant classements de recherche, extraits et documents récupérés en entrées structurées à chaque étape d’un processus automatisé.
Le SDK Agents ajoute des transferts, garde-fous et traçabilité, ce qui signifie que les politiques internes, journaux et contrôles de sécurité deviennent des signaux non liés au contenu supplémentaires. Un agent pourrait être techniquement capable de réserver un voyage sur n’importe quel site, mais les journaux de politique interne et garde-fous peuvent dicter quels fournisseurs sont autorisés, quelles données peuvent être partagées et quand un humain doit approuver une étape. Cette interaction entre signaux orientés web et signaux de gouvernance générés en interne sera probablement un facteur de différenciation dans les stratégies d’agents d’entreprise.
Les outils de codage agentiques offrent un schéma similaire dans le domaine logiciel. Comme le rapporte Wired, l’environnement de codage web d’OpenAI donne aux agents accès aux systèmes de fichiers, terminaux et sorties d’exécution via une interface navigateur. Ici, les dépôts, journaux, résultats de tests, vues de différences et notifications IDE deviennent des signaux de type web. L’agent s’appuie sur ceux-ci pour proposer des corrections, refactorisations et mises à jour de documentation. Lorsqu’ils sont déployés dans des flux de production chez des entreprises comme Cisco et Superhuman, les métriques de performance et les retours développeurs , taux de régression de bugs, commentaires de revue de code, incidents de déploiement , deviennent des signaux de renforcement qui affinent en continu le comportement du pilotage automatique.
Classer les agents, pas les pages : AgentRank et Internet 3.0
Si les pages web rivalisaient autrefois pour attirer l’attention via PageRank et les backlinks, le Web Agentique nécessitera de nouveaux systèmes de classement pour les agents eux-mêmes. L’article “Internet 3.0 : Architecture for a Web-of-Agents” introduit un écosystème où les agents découvrent, coordonnent et collaborent à travers les services, nécessitant une évaluation basée sur la performance réelle plutôt que sur des descriptions statiques.
Le protocole DOVIS proposé (Discovery, Orchestration, Verification, Incentives, Semantics) décrit comment collecter des agrégats préservant la vie privée de signaux d’utilisation et de performance. Ceux-ci incluent la fréquence de sélection, les résultats des tâches, la latence et les incidents de sécurité , un ensemble d’indicateurs plus riche que les simples taux de clics ou volumes de trafic. Par-dessus DOVIS, l’algorithme AgentRank-UC intègre usage et compétence dans un classement dynamique, analogue à PageRank mais piloté par les signaux d’interaction plutôt que la structure des hyperliens.
À mesure que le Web Agentique se développe , Microsoft estimant un passage de millions d’agents au T2 2025 à 1,3 milliard d’ici 2028 , ces signaux inter-agents deviendront centraux dans la façon dont nous découvrons, faisons confiance et composons les services. La loi de Metcalfe suggère que l’utilité du réseau pourrait augmenter de façon spectaculaire avec la densité des connexions, mais seulement si nous pouvons interpréter et gouverner le flot résultant de signaux d’interaction de façon scalable.
Le pilotage automatique agentique n’est plus de la science-fiction ; il devient progressivement le mode d’interaction par défaut pour de nombreuses tâches sur le web. Des premiers outils comme Operator aux navigateurs pleinement agentiques comme Atlas, de l’entraînement Visual-ARFT aux sémantiques NLWeb, le fil conducteur est un univers en expansion de signaux web. Structure de page, classements de recherche, mises en page visuelles, validations, politiques, journaux et métriques inter-agents sont tous codifiés comme des entrées qui pilotent les décisions autonomes.
Pour les concepteurs, décideurs et utilisateurs, la conclusion est claire : concevoir pour le Web Agentique, c’est concevoir les surfaces de signaux aussi soigneusement qu’on concevait autrefois les interfaces utilisateur. Chaque élément qui façonne le comportement humain , du libellé d’un bouton à une clause de conditions d’utilisation , façonne désormais aussi la perception et l’action des agents. La prochaine phase d’internet appartiendra à ceux qui sauront orchestrer ces signaux web pour équilibrer autonomie et alignement, efficacité et sécurité, innovation et gouvernance.