Cloudflare erige una cabina de peaje para los rastreadores de IA

Author auto-post.io
10-27-2025
8 min. de lectura
Resumir este artículo con:
Cloudflare erige una cabina de peaje para los rastreadores de IA

El 1 de julio de 2025, Cloudflare anunció un cambio significativo en la forma en que los sitios web pueden controlar el scraping automatizado: las nuevas zonas, por defecto, bloquearán a los rastreadores de IA conocidos a menos que los propietarios de los sitios opten explícitamente por permitirlos. Junto a ese bloqueo predeterminado, Cloudflare abrió una beta privada llamada Pay Per Crawl que permite a los editores establecer tarifas para los bots de IA que buscan acceso.

El cambio agrupa varias herramientas técnicas y de políticas , robots.txt gestionado, una política de Content Signals, honeypots y sistemas de pago, en lo que Cloudflare describe como un enfoque permisivo y aplicable al scraping. Dada la presencia global de Cloudflare, la medida tiene consecuencias inmediatas en una parte sustancial de la web.

Qué cambió el 1 de julio de 2025

Cloudflare hizo pública su política el 1 de julio de 2025: por defecto, se pregunta a los nuevos dominios si desean permitir rastreadores de IA, y la empresa comenzó a invitar a editores seleccionados a una beta privada de Pay Per Crawl. La característica principal es un bloqueo predeterminado para los rastreadores de IA conocidos en las zonas recién creadas, a menos que los propietarios de los sitios cambien la configuración.

Pay Per Crawl combina el bloqueo con una vía de acceso con permiso: los operadores de bots que deseen rastrear un sitio deben registrarse, declarar su identidad e intención y soportar un flujo de pago. Cloudflare implementó un mecanismo HTTP 402 Pago Requerido para que los bots sin intención de pago reciban respuestas 402 en lugar del contenido habitual.

Cloudflare enmarcó el cambio como una consecuencia práctica de la demanda de los editores y de las opciones previas: más de un millón de clientes ya habían utilizado controles anti-rastreadores de IA antes del cambio por defecto, y las funciones de robots.txt gestionado habían tenido una amplia adopción. El anuncio de julio también fue acompañado de documentación y guías para desarrolladores para los sitios que deseen adoptar los nuevos controles.

Escala y por qué importa

Parte de lo que da peso a la medida de Cloudflare es la escala: la empresa enruta una gran parte del tráfico global de Internet y atiende a millones de dominios. Las fuentes suelen citar cifras como aproximadamente el 16% del tráfico global y alrededor del 20% de los sitios web o más de dos millones de clientes, lo que significa que un bloqueo predeterminado para nuevas zonas afecta a una porción significativa de la web pública.

Cloudflare utilizó su telemetría para argumentar que el antiguo acuerdo , rastrear a cambio de tráfico de referencia, se ha deteriorado. Sus análisis Radar/Noise mostraron diferencias dramáticas en las proporciones de rastreo a referencia entre los motores de búsqueda tradicionales y muchos proveedores de IA: Google rastreó aproximadamente 14,18 páginas HTML por referencia en el período analizado, mientras que algunos proveedores de IA mostraron proporciones mucho mayores.

Estas proporciones son centrales en la justificación de Cloudflare para Pay Per Crawl: si un rastreador toma miles de páginas sin devolver un tráfico de referencia comparable, los sitios argumentan que están asumiendo costos sin recibir el beneficio comercial que antes proporcionaba la búsqueda. Sin embargo, Cloudflare enfatiza que la telemetría puede ser imperfecta y que las aplicaciones nativas, proxies y la ausencia de Referers pueden afectar las proporciones.

Cómo funciona Pay Per Crawl

En el centro del enfoque de mercado de Cloudflare está el flujo HTTP 402: cuando un bot solicita contenido pero no ha declarado intención de pago, el origen puede devolver un 402 Payment Required. El sistema de Cloudflare espera que los operadores de bots se registren, proporcionen declaraciones de identidad/propósito y, en la beta, completen pagos con Cloudflare actuando como comerciante de registro.

La plataforma soporta firmas criptográficas y firmas de solicitudes para reducir la suplantación de agentes de usuario, y Cloudflare dice que eliminará o bloqueará a los rastreadores que intenten evadir la detección. En la beta privada, Cloudflare también gestiona los pagos y la facturación, lo que simplifica la adopción para los editores pero crea un rol de intermediario que algunas empresas han cuestionado.

Cloudflare posiciona Pay Per Crawl como una alternativa de mercado a la litigación o negociaciones de licencias, permitiendo a los editores establecer tarifas por rastreo o requerir acceso con permiso. Los primeros participantes invitados a la beta incluyeron grandes editores de noticias y tecnología, y la beta está destinada a iterar a medida que surjan cuestiones técnicas y de políticas.

Herramientas de detección: AI Labyrinth, robots.txt gestionado y Content Signals

Cloudflare ha integrado detección y engaño en su estrategia. En marzo de 2025 introdujo AI Labyrinth, un honeypot opcional que inyecta páginas señuelo generadas por IA y enlaces invisibles para ralentizar, confundir y tomar huellas de los rastreadores que ignoran las directivas de robots. Estas páginas engañosas alimentan firmas en los sistemas de detección de bots.

Cloudflare también amplió las capacidades de robots.txt gestionado y, el 24 de septiembre de 2025, publicó una Content Signals Policy, una extensión legible por máquina de robots.txt que permite a los operadores declarar preferencias para search, ai-input y ai-train. La política está destinada a expresar permisos u opt-outs granulares para diferentes usos posteriores.

De manera crucial, Cloudflare enfatiza que los Content Signals son señales de preferencia, no garantías: funcionan mejor cuando se combinan con la gestión de bots, reglas WAF y la pila de detección de la empresa, que combina análisis de agente de usuario y ASN/IP, huellas de comportamiento, modelos de ML, honeypots y listas de firmas de bots seleccionadas.

Adopción por parte de los editores y dinámica del mercado

Varios grandes editores y plataformas fueron nombrados entre los primeros participantes y partidarios del programa. Cloudflare y los informes de prensa mencionaron a Condé Nast, The Atlantic, The Associated Press, TIME y Stack Overflow como participantes en el programa inicial, mientras que sitios como Reddit y Pinterest expresaron interés en el rastreo con permiso.

Para los editores, la atracción es sencilla: la capacidad de limitar el scraping sin restricciones o extraer ingresos directos de las empresas de IA que consumen grandes cantidades de contenido. El modelo Pay Per Crawl ofrece un mercado técnico que puede coexistir o, en algunos casos, sustituir los acuerdos de licencia bilaterales y las estrategias de litigio que persiguen otros editores.

Esa lógica de mercado tiene tracción real pero también plantea preguntas sobre la fragmentación: si muchos editores establecen tarifas o bloquean rastreadores por defecto, el costo y la complejidad para las empresas de IA podrían aumentar, y los sitios más pequeños pueden enfrentar dilemas entre apertura y monetización.

Resistencia, disputas y el contexto legal

El despliegue ha provocado resistencia y disputas públicas. En agosto de 2025, Cloudflare publicó un análisis alegando que Perplexity utilizó rastreadores encubiertos y no declarados que evadieron robots.txt y suplantaron agentes de usuario; Perplexity negó las acusaciones, argumentando que Cloudflare confundió tráfico de terceros o malinterpretó la telemetría. El intercambio escaló a un enfrentamiento de alto perfil cubierto por la prensa tecnológica.

Según informes, OpenAI se negó a participar en la vista previa inicial, argumentando que el modelo de pago y permiso intermediado por Cloudflare añade un intermediario entre los editores y las empresas de IA. Comentaristas y observadores legales han advertido que el enfoque podría crear nuevos guardianes y fragmentar la web abierta, o llevar las disputas a los tribunales si la aplicación y las definiciones siguen siendo controvertidas.

Por separado, la medida se sitúa en medio de una mayor actividad de litigios y licencias: grandes editores como el New York Times y plataformas como Reddit han presentado demandas o negociado acuerdos de licencia con empresas de IA, y Cloudflare presenta Pay Per Crawl como una opción de mercado complementaria para permitir que los editores sean compensados sin depender únicamente de litigios.

Límites técnicos, advertencias y qué sigue

Cloudflare es sincero sobre los límites: las proporciones de rastreo/referencia pueden verse afectadas por aplicaciones nativas que no emiten Referers, proxies de terceros y otros artefactos de medición. Destaca que robots.txt gestionado y Content Signals expresan preferencias y deben combinarse con herramientas de aplicación para tratar con actores adversarios.

Los rastreadores técnicamente sofisticados pueden intentar técnicas de evasión , rotación de IP, suplantación de agente de usuario o enrutamiento a través de terceros, y Cloudflare dice que eliminará o bloqueará a los rastreadores que intenten evadir. La empresa se basa en firmas, detección de ML y huellas de honeypot para identificar comportamientos indebidos, pero la aplicación universal sigue siendo un desafío.

Al 27 de octubre de 2025, el enfoque basado en permisos de Cloudflare , bloqueo predeterminado para nuevas zonas, beta privada de Pay Per Crawl, AI Labyrinth y la Content Signals Policy, se ha convertido en una estrategia activa de múltiples herramientas. El enfoque está dando forma a cómo los editores, las empresas de IA y los reguladores piensan sobre el acceso a los datos de entrenamiento y la economía del scraping.

Cloudflare Pay Per Crawl es ahora un experimento en vivo a gran escala: intenta convertir un problema de aplicación técnica en una negociación de mercado. Si se convierte en el modelo dominante para equilibrar el control de los editores, las necesidades de desarrollo de IA y la web abierta dependerá de la eficacia de la detección, los fallos legales y la respuesta de los participantes del mercado.

Para los operadores de sitios, las nuevas herramientas ofrecen opciones: bloquear por defecto, abrir el acceso con permiso o monetizar. Para las empresas de IA e investigadores, introducen posibles costos y fricciones. El debate más amplio sobre la intermediación, la equidad y el precio futuro de los datos de entrenamiento probablemente continuará a medida que evolucionen la tecnología, la ley y los modelos de negocio.

¿Listo para comenzar?

Empieza a automatizar tu contenido hoy

Únete a los creadores de contenido que confían en nuestra IA para generar artículos de blog de calidad y automatizar su flujo de publicación.

No se requiere tarjeta de crédito
Cancela en cualquier momento
Acceso instantáneo
Resumir este artículo con:
Compartir este artículo :