Cloudflare ha introducido un nuevo mecanismo para permitir que los propietarios de sitios web expresen cómo puede utilizarse su contenido por sistemas de IA, añadiendo una extensión formalizada al marco existente de robots.txt. La Content Signals Policy, anunciada el 24 de septiembre de 2025, ofrece a los operadores de sitios una sencilla vocabulario para indicar si las páginas pueden ser incluidas en índices de búsqueda, usadas como entrada para respuestas de IA en tiempo real, o utilizadas para entrenar modelos de aprendizaje automático.
La medida llega en medio de crecientes preocupaciones sobre el scraping web a gran escala y la economía del entrenamiento de IA, y viene acompañada de herramientas, un marco legal y propuestas experimentales de monetización destinadas a dar a los creadores más control. Cloudflare enmarca el cambio como una respuesta práctica y multinivel, no como una solución milagrosa única.
Qué significa el vocabulario de Content Signals
La Content Signals Policy define tres señales distintas: search, ai‑input y ai‑train. La señal search cubre la construcción de un índice de búsqueda o la devolución de enlaces y extractos cortos, y explícitamente no está destinada a resúmenes generados por IA. La señal ai‑input se refiere al uso del contenido como entrada para respuestas de IA en tiempo real o generación aumentada por recuperación. La señal ai‑train aborda el uso del contenido para entrenar o ajustar modelos.
Estas señales están destinadas a desambiguar los diferentes usos posteriores del contenido rastreado. Al separar los casos de uso de búsqueda, inferencia y entrenamiento, Cloudflare ofrece a los editores una forma más granular de permitir ciertos tipos de acceso automatizado mientras deniega otros, en lugar de un enfoque binario de permitir/bloquear de robots.txt.
Es importante destacar que Cloudflare documenta que una señal ausente es neutral, lo que significa que la ausencia de una directiva explícita no otorga ni deniega permiso. Por lo tanto, los propietarios de sitios deben optar por participar o no para expresar una preferencia.
Despliegue y configuraciones predeterminadas para millones de dominios
Cloudflare planea un amplio despliegue gestionado: la empresa actualizará su robots.txt gestionado para más de 3,8 millones de dominios para incluir Content Signals. Cuando antes se bloqueaba el entrenamiento, Cloudflare establecerá Content-Signal: search=yes, ai-train=no por defecto; la señal ai‑input se deja intencionadamente neutral en la configuración predeterminada.
El objetivo predeterminado es equilibrar la capacidad de descubrimiento con la protección: permitir la indexación de búsqueda tradicional mientras se prohíbe el entrenamiento de modelos a menos que el editor lo permita explícitamente. Cloudflare también publicó opciones de un solo clic y documentación para que los administradores puedan cambiar la configuración rápidamente.
Las métricas iniciales reportadas por Cloudflare indican una adopción sustancial: su anterior bloqueo de bots de un solo clic superó el millón de sitios y reportes posteriores citaron más de dos millones y medio de sitios web eligiendo medidas que prohíben el entrenamiento de IA o habilitan el bloqueo y controles gestionados.
Marco legal y ambiciones de estandarización
Cloudflare publicó la Content Signals Policy bajo una licencia CC0 e incluyó lenguaje legal explícito para fortalecer los derechos de los editores. El texto de la política enmarca las restricciones expresadas a través de las señales de contenido como una reserva de derechos bajo el Artículo 4 de la Directiva 2019/790 de la UE, que trata sobre exenciones de minería de texto y datos y derechos relacionados. Ese marco busca que las señales sean una declaración legal de intención, no solo una directiva cortés para bots.
Más allá de la posición legal, Cloudflare está impulsando herramientas y textos de ejemplo para fomentar la adopción y ha sugerido el enfoque a organismos de estandarización. La empresa también es transparente sobre las fuentes primarias y fomenta la interoperabilidad, publicando código y un centro ContentSignals.org para ayudar a los operadores de sitios.
No obstante, la eficacia de las señales dependerá de la adopción en la industria, las respuestas regulatorias y la posible jurisprudencia futura. Observadores señalan que la fuerza legal depende del seguimiento, la aplicación y de si los tribunales tratarán estas señales como licencias vinculantes o declaraciones contractuales en disputas.
Complementos técnicos: aplicación, pago por rastreo y WAFs
Cloudflare enfatiza que las señales de contenido son preferencias y no una aplicación absoluta. La empresa señala repetidamente que los rastreadores pueden ignorar las señales, por lo que deben combinarse con controles técnicos como reglas WAF, gestión de bots, limitación de tasa y otras defensas para bloquear o ralentizar rastreadores no conformes.
Para dar a los editores una opción transaccional, Cloudflare introdujo un sistema experimental de pago por rastreo llamado Content Independence Day en una beta privada el 1 de julio de 2025. La idea es simple: los sitios pueden Permitir, Cobrar o Bloquear diferentes rastreadores. Al cobrar, Cloudflare puede devolver respuestas HTTP 402 Payment Required con campos estructurados que indican el precio del dominio y los requisitos de autenticación.
La mecánica de pago por rastreo incluye verificación criptográfica y campos como signature‑agent y signature‑input, utilizando claves públicas Ed25519 alojadas en un directorio para que los rastreadores registrados puedan autenticarse e indicar intención de pago. Cloudflare dijo que puede actuar como comerciante de registro para las transacciones durante la beta privada.
Por qué actuó Cloudflare: los datos sobre el rastreo de IA
Los análisis de Radar de Cloudflare muestran que el rastreo con fines de entrenamiento ya domina el rastreo de IA en la web abierta, representando aproximadamente el 80% del tráfico de rastreadores de IA en periodos recientes. Esa cifra subió de alrededor del 72% un año antes a aproximadamente 79,82% en muestras de 2025, subrayando el entrenamiento como el principal impulsor de la actividad de scraping.
Cloudflare también destacó desequilibrios dramáticos entre rastreo y referidos para mostrar la economía: ejemplos de julio de 2025 incluyeron Anthropic con alrededor de 38.066 rastreos por referido, OpenAI cerca de 1.091:1 y Perplexity aproximadamente 195:1. Esas proporciones ilustran cuántas páginas se extraen por cada clic de usuario, concentrando los beneficios lejos de los editores originales.
Cloudflare advirtió que el crecimiento del tráfico de bots se está acelerando y proyectó que los bots podrían superar el tráfico humano para finales de 2029, con la actividad total de bots potencialmente superando el tráfico actual de Internet para 2031. Estas tendencias forman parte de la justificación para señales más fuertes y experimentos de monetización.
Respuesta de la industria y adopción temprana
Varios grandes editores y plataformas se alinearon públicamente con el enfoque de permisos de Cloudflare durante el despliegue del pago por rastreo. Los participantes reportados y primeros partidarios incluyeron a Condé Nast, TIME, The Associated Press, The Atlantic, Stack Overflow y Quora, entre otros, señalando el interés de los editores por tener más control o mecanismos de compensación.
Informes y análisis independientes utilizaron los conjuntos de datos de Cloudflare para alimentar debates sobre la economía del rastreo frente al clic y si el pago por rastreo tendrá éxito. Algunos analistas argumentaron que el enfoque podría reequilibrar el valor, mientras que otros advirtieron sobre la fragmentación y el riesgo de adopción desigual en la industria.
La licencia CC0 y la cadena de herramientas de Cloudflare buscan reducir la fricción para la adopción, pero el alcance final depende de si las grandes empresas de IA respetan las señales o aceptan esquemas de pago, y de cuán ampliamente los editores habiliten estas opciones.
Evasión, retos de aplicación y consejos prácticos
Cloudflare ha documentado casos reales de evasión, incluidos casos en los que operadores usaron rastreadores no declarados o sigilosos para eludir directivas de no rastreo. Perplexity fue citado en publicaciones de seguimiento como un ejemplo de tráfico que intentó evitar las normas de rastreo declaradas, ilustrando que los actores decididos adaptarán tácticas para eludir las señales.
Debido a que las señales pueden ser ignoradas, Cloudflare recomienda combinarlas con reglas WAF, gestión de bots, limitación de tasa y autenticación cuando sea posible. La documentación incluye ejemplos de robots.txt gestionados, la sintaxis exacta de los comentarios que el servicio gestionado servirá y una guía paso a paso para que los propietarios de sitios se den de baja o establezcan valores predeterminados.
Los operadores de sitios también deben considerar monitorear los patrones de tráfico usando analíticas y Cloudflare Radar, mantener límites de tasa y requerir acceso API autenticado para consumidores automatizados de alto volumen. Estas capas dificultan la evasión y proporcionan señales forenses para la eliminación o acción legal si es necesario.
Preguntas abiertas, riesgos e implicaciones de política
Analistas y periodistas han señalado preguntas abiertas sobre el enfoque. Los críticos advierten que los actores maliciosos pueden simplemente ignorar robots.txt y las señales de contenido, que algunos bots podrían evitar obtener robots.txt para no ver los términos, y que monetizar el acceso podría fragmentar la web abierta en silos de pago y gratuitos.
También existen posibles consecuencias no deseadas para archivos, investigación y servicios de búsqueda que dependen de un rastreo amplio. Si el acceso se divide por muros de pago o bloqueos técnicos, el ecosistema de herramientas que depende de un rastreo exhaustivo podría verse afectado, con impactos posteriores en el descubrimiento, la investigación y los archivos de interés público.
Expertos legales señalan que, aunque la reserva de derechos de Cloudflare bajo la ley de la UE fortalece la posición de los editores, la eficacia a largo plazo dependerá de las normas de la industria, la capacidad de aplicación, las intervenciones regulatorias y de cómo los organismos de estándares y los tribunales traten estas señales.
Cloudflare Content Signals representa una respuesta pragmática y multiherramienta a un problema creciente: rastreos de entrenamiento de IA de alto volumen que extraen valor del contenido de los editores sin un marco claro de compensación o permiso. Al dar a los propietarios de sitios un vocabulario claro, un marco legal y mecanismos opcionales de monetización, Cloudflare busca reequilibrar el control hacia los creadores, reconociendo que aún es necesaria la aplicación técnica.
La política está lejos de ser una respuesta definitiva. Probablemente impulsará experimentación, disputas y nuevos esfuerzos de estandarización. Los propietarios de sitios y los responsables de políticas deben observar de cerca los patrones de adopción, las técnicas de aplicación y los desarrollos legales, y combinar las señales con protecciones técnicas y monitoreo para proteger el contenido mientras se preservan los usos legítimos de la web abierta.