Le 1er juillet 2025, Cloudflare a annoncé un changement majeur dans la manière dont les sites web peuvent contrôler le scraping automatisé : par défaut, les nouvelles zones bloqueront les crawlers IA connus, sauf si les propriétaires de sites choisissent explicitement de les autoriser. Parallèlement à ce blocage par défaut, Cloudflare a ouvert une bêta privée appelée Pay Per Crawl, permettant aux éditeurs de fixer des frais pour les bots IA souhaitant accéder à leur contenu.
Ce changement regroupe plusieurs outils techniques et politiques , robots.txt géré, une politique Content Signals, des honeypots et une infrastructure de paiement , dans ce que Cloudflare décrit comme une approche autorisée et exécutable du scraping. Étant donné l’empreinte mondiale de Cloudflare, cette décision a des conséquences immédiates sur une part substantielle du web.
Ce qui a changé le 1er juillet 2025
Cloudflare a rendu sa politique publique le 1er juillet 2025 : par défaut, les nouveaux domaines doivent indiquer s’ils souhaitent autoriser les crawlers IA, et l’entreprise a commencé à inviter certains éditeurs à participer à la bêta privée de Pay Per Crawl. La fonctionnalité principale est un blocage par défaut des crawlers IA connus sur les nouvelles zones, sauf si les propriétaires de sites modifient ce paramètre.
Pay Per Crawl associe ce blocage à une voie d’accès autorisée : les opérateurs de bots souhaitant crawler un site doivent s’enregistrer, déclarer leur identité et leur intention, et prendre en charge un flux de paiement. Cloudflare a mis en place un mécanisme HTTP 402 Payment Required afin que les bots sans intention de paiement reçoivent des réponses 402 au lieu du contenu habituel.
Cloudflare présente ce changement comme une réponse pratique à la demande des éditeurs et aux précédents opt-ins : plus d’un million de clients utilisaient déjà les contrôles anti-crawlers IA avant ce changement par défaut, et les fonctionnalités de robots.txt géré étaient largement adoptées. L’annonce de juillet s’est également accompagnée de documentation et de guides pour les développeurs souhaitant adopter ces nouveaux contrôles.
L’échelle et pourquoi cela compte
L’impact de la décision de Cloudflare tient en partie à son échelle : l’entreprise gère une grande part du trafic internet mondial et dessert des millions de domaines. Les chiffres couramment cités évoquent environ 16 % du trafic mondial et près de 20 % des sites web ou plus de deux millions de clients, ce qui signifie qu’un blocage par défaut pour les nouvelles zones affecte une part significative du web public.
Cloudflare s’appuie sur sa télémétrie pour affirmer que l’ancien accord , crawl en échange de trafic référent , s’est effiloché. Ses analyses Radar/Noise ont montré des différences spectaculaires dans les ratios crawl‑vers‑référent entre les moteurs de recherche traditionnels et de nombreux fournisseurs IA : Google crawlait environ 14 à 18 pages HTML par référent sur la période échantillonnée, alors que certains fournisseurs IA affichaient des ratios de plusieurs ordres de grandeur supérieurs.
Ces ratios sont au cœur de la justification de Cloudflare pour Pay Per Crawl : si un crawler prélève des milliers de pages sans générer un trafic référent comparable, les sites estiment supporter des coûts sans bénéficier du retour commercial que la recherche apportait auparavant. Cloudflare souligne cependant que la télémétrie peut être imparfaite et que les applications natives, proxys et l’absence de Referer peuvent fausser les ratios.
Comment fonctionne Pay Per Crawl
Au cœur de l’approche de Cloudflare se trouve un flux HTTP 402 : lorsqu’un bot demande du contenu sans avoir déclaré d’intention de paiement, l’origine peut renvoyer un 402 Payment Required. Le système de Cloudflare attend des opérateurs de bots qu’ils s’enregistrent, fournissent des déclarations d’identité et d’objectif, et, dans la bêta, effectuent les paiements avec Cloudflare comme marchand officiel.
La plateforme prend en charge les signatures cryptographiques et la signature des requêtes pour réduire l’usurpation d’user-agent, et Cloudflare indique qu’il déréférencera ou bloquera les crawlers tentant d’échapper à la détection. Dans la bêta privée, Cloudflare gère également l’infrastructure de paiement et la facturation, ce qui simplifie l’adoption pour les éditeurs mais crée un rôle d’intermédiaire que certaines entreprises remettent en question.
Cloudflare présente Pay Per Crawl comme une alternative de place de marché à la négociation ou aux litiges, permettant aux éditeurs de fixer des frais par crawl ou d’exiger un accès autorisé. Les premiers participants invités à la bêta incluaient de grands éditeurs de presse et de technologie, et la bêta est conçue pour évoluer au fur et à mesure que des questions techniques et politiques émergent.
Outils de détection : AI Labyrinth, robots.txt géré et Content Signals
Cloudflare a intégré détection et tromperie dans sa stratégie. En mars 2025, il a lancé AI Labyrinth, un honeypot sur opt-in qui injecte des pages leurres générées par IA et des liens invisibles pour ralentir, confondre et identifier les crawlers ignorant les directives robots. Ces pages trompeuses alimentent les systèmes de détection de bots.
Cloudflare a également étendu les capacités de robots.txt géré et, le 24 septembre 2025, publié une Content Signals Policy , une extension lisible par machine de robots.txt permettant aux opérateurs de déclarer des préférences pour search, ai‑input et ai‑train. Cette politique vise à exprimer des opt-outs ou permissions très granulaires pour différents usages en aval.
Point crucial, Cloudflare souligne que les Content Signals sont des signaux de préférence, non des garanties : ils fonctionnent au mieux lorsqu’ils sont associés à la gestion des bots, aux règles WAF et à la pile de détection de l’entreprise, qui combine analyse user-agent et ASN/IP, empreintes comportementales, modèles ML, honeypots et listes de signatures de bots sélectionnées.
Adoption par les éditeurs et dynamiques de marché
Plusieurs grands éditeurs et plateformes ont été nommés parmi les premiers participants et soutiens du programme. Cloudflare et la presse ont cité Condé Nast, The Atlantic, The Associated Press, TIME et Stack Overflow comme participants au programme initial, tandis que des sites comme Reddit et Pinterest ont exprimé leur intérêt pour le crawling autorisé.
Pour les éditeurs, l’attrait est simple : la possibilité de limiter le scraping incontrôlé ou de tirer un revenu direct des entreprises IA qui consomment de grandes quantités de contenu. Le modèle Pay Per Crawl offre une place de marché technique pouvant compléter, voire dans certains cas remplacer, les accords de licence bilatéraux et les stratégies de contentieux poursuivies par d’autres éditeurs.
Cette logique de marché a un réel attrait mais soulève aussi des questions sur la fragmentation : si de nombreux éditeurs fixent des frais ou bloquent les crawlers par défaut, le coût et la complexité en aval pour les entreprises IA pourraient augmenter, et les petits sites pourraient être confrontés à des arbitrages entre ouverture et monétisation.
Contestations, litiges et contexte juridique
Le déploiement a suscité des contestations et des différends publics. En août 2025, Cloudflare a publié une analyse accusant Perplexity d’avoir utilisé des crawlers furtifs et non déclarés contournant robots.txt et usurpant les user-agents ; Perplexity a nié ces allégations, arguant que Cloudflare confondait du trafic tiers ou interprétait mal la télémétrie. L’échange s’est transformé en une polémique très médiatisée dans la presse tech.
OpenAI aurait refusé de participer à l’aperçu initial, estimant que le modèle d’intermédiation de paiement et de permission de Cloudflare introduit un intermédiaire entre éditeurs et entreprises IA. Commentateurs et observateurs juridiques ont averti que cette approche pourrait créer de nouveaux gatekeepers et fragmenter le web ouvert, ou pousser les différends devant les tribunaux si l’application et les définitions restent contestées.
Par ailleurs, cette initiative s’inscrit dans un contexte plus large de contentieux et de négociations de licences : de grands éditeurs comme le New York Times et des plateformes comme Reddit ont engagé des poursuites ou négocié des accords de licence avec des entreprises IA, et Cloudflare présente Pay Per Crawl comme une option de marché complémentaire permettant aux éditeurs d’être rémunérés sans dépendre uniquement des litiges.
Limites techniques, réserves et perspectives
Cloudflare reconnaît ouvertement les limites : les ratios crawl/référent peuvent être affectés par les applications natives qui n’émettent pas de Referer, les proxys tiers et d’autres artefacts de mesure. Il souligne que robots.txt géré et Content Signals expriment des préférences et doivent être associés à des outils d’application pour gérer les acteurs adverses.
Les crawlers techniquement sophistiqués peuvent tenter des techniques d’évasion , rotation d’IP, usurpation d’user-agent ou routage via des tiers , et Cloudflare affirme qu’il déréférencera ou bloquera les crawlers qui tentent d’échapper à la détection. L’entreprise s’appuie sur des signatures, la détection ML et les empreintes de honeypots pour identifier les comportements abusifs, mais une application universelle reste difficile.
Au 27 octobre 2025, l’approche basée sur la permission de Cloudflare , blocage par défaut pour les nouvelles zones, bêta privée Pay Per Crawl, AI Labyrinth et Content Signals Policy , est devenue une stratégie active multi-outils. Cette approche façonne la manière dont les éditeurs, les entreprises IA et les régulateurs envisagent l’accès aux données d’entraînement et l’économie du scraping.
Cloudflare Pay Per Crawl est désormais une expérimentation à grande échelle : elle tente de transformer un problème d’application technique en une négociation de marché. Le fait qu’elle devienne ou non le modèle dominant pour équilibrer le contrôle des éditeurs, les besoins du développement IA et l’ouverture du web dépendra de l’efficacité de la détection, des décisions juridiques et de la réaction des acteurs du marché.
Pour les opérateurs de sites, ces nouveaux outils offrent un choix : bloquer par défaut, ouvrir un accès autorisé ou monétiser. Pour les entreprises et chercheurs IA, ils introduisent des coûts et des frictions potentiels. Le débat plus large sur le contrôle, l’équité et le futur prix des données d’entraînement devrait se poursuivre à mesure que la technologie, le droit et les modèles économiques évoluent.