Les webmasters et éditeurs se tournent de plus en plus vers la tromperie et la friction pour protéger leurs sites contre les robots d’IA automatisés. Ce qui n’était au départ que des blocages basiques et des déclarations dans le fichier robots.txt s’est transformé en une boîte à outils comprenant des pages leurres, des générateurs de tarpit, de l’empoisonnement de jeux de données, des proxies à preuve de travail et des portails commerciaux capables de détecter, ralentir, voire faire payer les crawlers.
Cette tendance reflète un affrontement entre les sites qui considèrent le scraping comme un préjudice économique et les concepteurs d’IA qui dépendent des données du web pour l’entraînement de leurs modèles. De nouveaux produits défensifs et des projets open source ont rendu ces techniques plus accessibles, et la télémétrie publique des fournisseurs a intensifié le débat sur ce qui est techniquement possible, légalement autorisé et économiquement viable.
Le nouveau kit d’outils de Cloudflare : AI Labyrinth et Pay Per Crawl
Cloudflare a annoncé AI Labyrinth le 19 mars 2025, une fonctionnalité à activer qui détecte les « comportements inappropriés de bots » et sert des pages leurres générées par IA avec des liens cachés pour ralentir, confondre et identifier les scrapers. Le fournisseur a expliqué que « tout visiteur qui va jusqu’à quatre liens de profondeur est très probablement un bot », utilisant ce comportement de navigation profonde comme signal pour distinguer les humains des crawlers automatisés.
Au-delà des leurres, Cloudflare a également lancé Pay Per Crawl en bêta privée le 1er juillet 2025, créant un cadre technique et commercial pour bloquer, autoriser ou faire payer les crawlers. Ce système utilise la sémantique HTTP 402 et les signatures Web Bot Auth, Cloudflare agissant comme marchand officiel pour gérer les paiements et l’application des règles.
Ensemble, ces mesures représentent un changement de politique et de produit : Cloudflare a commencé à bloquer par défaut les crawlers IA pour les nouveaux clients et a promu la monétisation comme levier. Des éditeurs et médias comme Condé Nast, The Atlantic et l’Associated Press ont indiqué que ces outils pourraient les aider à reprendre le contrôle ou servir de position de négociation lors de discussions sur les licences.
Comment fonctionnent les leurres, tarpits et honeypots
Les pages leurres et les tarpits créent un océan de contenus plausibles mais sans valeur, destinés à attirer et gaspiller les ressources des crawlers non supervisés. Des projets open source comme Nepenthes, Iocaine et Quixotic génèrent à l’infini des pages factices, des liens cachés et parfois du charabia algorithmique pour piéger les scrapers qui ne respectent pas les intentions du site.
Les honeypots classiques restent utiles : champs de formulaire invisibles, liens cachés et chemins que les utilisateurs normaux n’empruntent jamais peuvent révéler ou ralentir les bots. Le Labyrinth de Cloudflare est une version gérée et automatisée de ce schéma, utilisant la profondeur comportementale pour noter les visiteurs et fournir du contenu leurre à des fins d’identification.
Certaines implémentations vont plus loin et alimentent les scrapers avec du charabia généré par chaîne de Markov ou par IA pour gaspiller leur budget de tokens ou tenter un empoisonnement. Les déploiements signalés restent modestes mais se répandent, et les défenseurs affirment que même de petits pièges peuvent forcer les scrapers à dépenser du CPU, de la bande passante et du temps de développement pour les éviter.
Empoisonnement et défenses pour les artistes
Les artistes et photographes ont mené des initiatives pour « empoisonner » les récoltes des scrapers afin que les modèles entraînés sur ces images produisent des résultats erronés ou inutilisables. Des outils comme Nightshade et Glaze, développés dans des contextes académiques, modifient les images ou intègrent des perturbations spécifiques à certains prompts pour perturber l’entraînement des modèles lors d’expériences contrôlées.
HaveIBeenTrained de Spawning aide les créateurs à vérifier la présence de leurs images dans de grands jeux de données, tandis que Kudurru, un plugin WordPress et réseau de défense, suit les IP de scrapers sur les sites participants et peut bloquer les scrapers ou retourner des images alternatives en contre-mesure. Des développeurs ont rapporté avoir brièvement stoppé de gros téléchargements de jeux de données lors de tests, illustrant le potentiel de défense coopérative.
Les travaux académiques montrent que l’empoisonnement de jeux de données à l’échelle du web est réalisable en laboratoire et qu’un nombre modeste d’échantillons empoisonnés peut affecter les petits modèles. Cependant, passer à l’échelle pour impacter des modèles de production à grande échelle est difficile, et les principaux développeurs d’IA affirment investir dans la détection et le filtrage pour réduire le risque de données d’entraînement corrompues.
Preuve de travail, friction économique et paywalls pour bots
Certains défenseurs inversent l’idée traditionnelle du CAPTCHA en imposant un coût aux bots. Des proxies inverses à preuve de travail, comme l’approche dite Anubis, exigent des calculs pour continuer, rendant le scraping plus coûteux et plus lent. Ces systèmes visent à changer le calcul économique : si crawler à grande échelle devient trop cher, une partie du scraping s’arrêtera.
Pay Per Crawl de Cloudflare est l’équivalent commercial, permettant aux sites d’exiger une authentification, de facturer l’accès ou de bloquer les crawlers inconnus. En combinant les signatures Web Bot Auth et la facturation, le système crée un canal standardisé pour le crawling légal et payant, tout en dissuadant la collecte massive anonyme.
Mais ces mesures sont imparfaites. Les acteurs sophistiqués peuvent répartir le travail sur de nombreux nœuds, improviser des techniques d’évasion à faible coût ou s’intégrer à des fermes de proxies. La preuve de travail augmente les coûts des deux côtés et peut créer une latence qui affecte l’expérience utilisateur si elle n’est pas soigneusement réservée aux acteurs suspects.
Échelle, télémétrie et pourquoi les défenseurs se sentent sous pression
Les données de Cloudflare soulignent l’ampleur du défi : les crawlers IA auraient généré plus de 50 milliards de requêtes par jour vers le réseau Cloudflare, soit environ 1 % de toutes les requêtes au moment du rapport. Ce volume brut motive l’innovation défensive et les réponses commerciales.
La télémétrie montre aussi des changements rapides dans l’identité des crawlers. En mai 2025, GPTBot représentait environ 30 % des requêtes de crawlers IA, contre environ 5 % l’année précédente, tandis que l’ExternalAgent de Meta atteignait environ 19 %. La télémétrie du réseau d’éditeurs de TollBit pour le premier trimestre 2025 a révélé une forte hausse du scraping IA : le contournement de robots.txt est passé d’environ 3,3 % à 12,9 % d’un trimestre à l’autre, les scrapes basés sur la récupération ont augmenté de près de 49 % QoQ, et le trafic bot vers du contenu payant a explosé.
Les éditeurs pointent des ratios extrêmes de crawl par rapport aux referrals comme preuve de préjudice économique : certaines entreprises d’IA et certains crawlers font des milliers de requêtes pour chaque referral ou clic qui générerait normalement des revenus publicitaires. Ces chiffres ont contribué à justifier des contrôles techniques plus stricts, des négociations de licences et des poursuites visant à récupérer la valeur générée par les modèles commerciaux entraînés sur le contenu des éditeurs.
Risques, contre-mesures et l’escalade de la course aux armements
Les pièges défensifs ont des coûts et des risques. Les administrateurs système préviennent que les tarpits et la génération de leurres peuvent consommer du CPU et de la bande passante réels sur le site défendant, et que du contenu factice ou empoisonné, s’il est réindexé, peut polluer le web public avec des signaux de mauvaise qualité. Des pièges mal configurés peuvent aussi bloquer les crawlers légitimes et nuire au SEO ou à l’expérience utilisateur.
Les entreprises d’IA ne restent pas inactives : les principaux fournisseurs rapportent la mise en place de détection d’empoisonnement, de pipelines de filtrage et de processus d’entraînement plus résilients pour identifier et écarter les échantillons corrompus. Les déclarations publiques indiquent une volonté de respecter les politiques et registres lorsque c’est possible, tout en investissant dans la robustesse face à des données bruyantes ou adversariales.
Le résultat est une course aux armements avec des compromis. Les défenses techniques, les stratégies juridiques et les produits commerciaux comme le pay-per-crawl et les accords de licence sont des leviers complémentaires. Mais chaque camp s’adapte : les défenseurs affinent leurs pièges, les scrapers renforcent leurs crawlers, et des intermédiaires comme Cloudflare proposent de nouveaux outils d’application. Les observateurs s’accordent à dire que cette dynamique va se poursuivre, les coûts et les effets collatéraux déterminant quelles techniques s’imposent.
À court terme, les webmasters disposent d’un éventail croissant d’options pour ralentir ou dissuader le scraping indésirable, des liens honeypot et tarpits à l’empoisonnement et aux portails commerciaux. Aucune de ces solutions n’est une panacée, et toutes nécessitent une mise en œuvre soignée pour éviter les dommages collatéraux sur l’infrastructure, l’indexation par les moteurs de recherche et le trafic légitime.
À plus long terme, le débat sera façonné par la technologie, la loi et la négociation de marché : si les concepteurs d’IA améliorent l’hygiène de leurs crawlers et respectent les politiques des sites, si les éditeurs obtiennent des accords de licence ou des recours juridiques, et si les intermédiaires trouvent un équilibre entre application des règles et accès ouvert. Pour l’instant, les défenseurs expérimentent activement les pièges à contenu comme un outil parmi d’autres dans une stratégie plus large pour reprendre le contrôle sur la façon dont le contenu web est collecté et utilisé.