Los editores recuperan el control sobre el rastreo de IA

Author auto-post.io
12-02-2025
14 min. de lectura
Resumir este artículo con:
Los editores recuperan el control sobre el rastreo de IA

Los rastreadores de IA solían recorrer la web abierta como si fuera un bien común sin vigilancia. Durante años, los editores solo contaban con herramientas rudimentarias para ralentizarlos: bloqueos ad hoc de agentes de usuario, filtros de IP frágiles y una convención robots.txt cuya fuerza legal seguía siendo incierta. Mientras tanto, el tráfico se desplazaba de los sitios originales hacia las respuestas de IA, erosionando los ingresos publicitarios y las suscripciones mientras los modelos absorbían silenciosamente décadas de trabajo de redacciones, comunidades de código abierto y creadores independientes.

En 2024 y 2025, ese equilibrio de poder comenzó a inclinarse. Una ola de estándares técnicos, configuraciones predeterminadas a nivel de infraestructura y marcos de licencias está transformando el pasivo “raspado por defecto” en algo más cercano a “permiso requerido”. Desde el bloqueo a nivel de red y las herramientas de pago por rastreo de Cloudflare, hasta el estándar Really Simple Licensing y los “tarpits” anti-IA, los editores no solo están resistiendo el raspado no autorizado, sino que están empezando a definir los términos económicos y legales bajo los cuales la IA puede acceder a su trabajo.

El fin del rastreo de IA por defecto

Durante la mayor parte de la última década, las empresas de IA trataron las URLs públicas como terreno libre. Si tu contenido era accesible por un bot y no estaba explícitamente bloqueado, probablemente acababa en conjuntos de entrenamiento. La fricción era tan baja que, para 2025, Cloudflare estimó que los rastreadores de IA generaban más de 50 mil millones de solicitudes por día, casi el 1% de todo el tráfico que veía en su red. Para sitios más pequeños y proyectos de código abierto, las solicitudes automatizadas a menudo superaban ampliamente a las visitas humanas, consumiendo ancho de banda y recursos sin ningún beneficio correspondiente.

Servicios de monitoreo como CheckAIBots comenzaron a documentar este cambio. Informan que alrededor del 48% de los sitios de noticias ahora bloquean a los principales rastreadores de IA como GPTBot, ClaudeBot, Google-Extended y CCBot, usando tanto robots.txt como medidas de refuerzo en el servidor. Pronostican que esta cifra alcanzará el 60 o 70% entre los editores premium para finales de 2025, impulsado por la caída del tráfico de referencia desde los buscadores, el auge de las cajas de respuesta de IA que sustituyen los clics y el creciente escepticismo legal hacia el entrenamiento no licenciado.

Al mismo tiempo, los registros de servidores y trabajos académicos comenzaron a cuantificar una realidad incómoda: en algunos sitios de pequeñas organizaciones, se estimaba que entre el 80 y el 95% del tráfico provenía de rastreadores y bots de IA, no de humanos. Para los administradores y organizaciones sin fines de lucro, esto era insostenible. Muchos se vieron obligados a bloquear rangos completos de IP o incluso países enteros solo para mantener bajo control los costos de infraestructura. En este contexto, la idea de que el acceso de la IA debe ser opt-in, negociado y compensado comenzó a ganar fuerza política y comercial.

Bloqueo por defecto de Cloudflare: la infraestructura toma partido

El punto de inflexión más visible llegó el 1 de julio de 2025, cuando Cloudflare se convirtió en el primer proveedor de infraestructura importante en bloquear por defecto a los rastreadores de IA conocidos si accedían al contenido “sin permiso o compensación”. En lugar de que cada sitio tuviera que mantener su propia lista de bots agresivos, Cloudflare invirtió el modelo: ahora las empresas de IA debían declarar lo que hacían sus rastreadores y solicitar acceso, mientras que los editores ganaban un panel de control explícito de opciones.

El sistema de Cloudflare requiere que los clientes de IA etiqueten sus rastreadores según su uso: entrenamiento, inferencia o búsqueda. Esa distinción importa. El entrenamiento implica construir o actualizar un modelo con contenido del editor; la inferencia generalmente significa recuperación en vivo para alimentar respuestas de IA; la búsqueda se refiere al indexado clásico y fragmentos. Los propietarios de sitios pueden permitir o denegar selectivamente cada propósito, eligiendo, por ejemplo, permitir el indexado de búsqueda mientras bloquean el raspado para entrenamiento y los sistemas de respuesta en tiempo real que podrían canibalizar su audiencia.

Grupos mediáticos importantes como Condé Nast, Dotdash Meredith y Gannett respaldaron públicamente la medida de Cloudflare, presentándola como un “cambio de juego” que permite un “intercambio de valor justo” y frena el “raspado no autorizado”. Al incorporar un régimen basado en permisos directamente en una gran CDN, Cloudflare convirtió el acceso de IA en una decisión de infraestructura, no solo en un problema de cada sitio. Esto marcó una de las primeras veces que un gran proveedor neutral se alineó explícitamente con los editores en la política de rastreo de IA, y señaló que el raspado sin fricción ya no sería la norma en gran parte de la web.

De robots.txt rudimentario a políticas de IA detalladas

Robots.txt ha sido durante mucho tiempo el estándar de facto para indicar a los bots qué pueden rastrear. Sin embargo, su diseño original era tosco: podías permitir o denegar agentes de usuario o directorios, pero no podías expresar reglas matizadas sobre cómo podría usarse ese contenido posteriormente. Para la IA, este modelo binario era demasiado simple. Los editores podían estar cómodos con el indexado de búsqueda que genera tráfico, pero muy incómodos con que el mismo rastreador alimente modelos de lenguaje que respondan preguntas sin devolver lectores.

La Content Signals Policy de Cloudflare de septiembre de 2025 amplía robots.txt con tres permisos legibles por máquina que se corresponden más directamente con comportamientos de IA: search, ai-input y ai-train. Con ellos, un editor puede, por ejemplo, permitir search para beneficios tradicionales de SEO, mientras bloquea ai-input para que su contenido no se use en respuestas generales o de chat de IA, y deniega ai-train para mantenerlo fuera de los conjuntos de entrenamiento de modelos. Este nivel de granularidad era imposible con reglas básicas de permitir/denegar.

La política se presenta explícitamente como una forma de “limitar el uso de IA de tu contenido a través de robots.txt”. También refleja una tendencia más amplia: robots.txt está evolucionando de una simple sugerencia de rastreo a una superficie de políticas y licencias más compleja, que debe diferenciar entre múltiples clases de agentes automatizados y usos. Si los actores dominantes como Google honrarán plenamente estas directivas matizadas sigue siendo incierto, pero la base técnica para permisos diferenciados de IA ya está establecida, y los primeros adoptantes ya la están usando para codificar sus preferencias.

Robots.txt como capa de licencias de IA: Really Simple Licensing

Sobre esa misma superficie de control, el estándar Really Simple Licensing (RSL), lanzado en septiembre de 2025, reimagina explícitamente robots.txt como una capa de licencias para la IA. En lugar de solo indicar “rastrea” o “no rastrees”, RSL permite a los editores adjuntar términos de licencia legibles por máquina que especifican si un sitio está abierto al entrenamiento de IA, licenciado bajo un acuerdo comercial particular, con muro de pago o estrictamente sin IA.

Respaldado en su lanzamiento por Reddit, Yahoo, Medium y otros, RSL está diseñado para que los rastreadores de IA puedan detectar automáticamente el estado de un sitio y responder en consecuencia. Una empresa de IA podría, por ejemplo, tratar el contenido marcado como “licenciado” de manera diferente al contenido “con muro de pago” que requiere un acuerdo separado, o saltarse por completo los sitios “sin IA”. En principio, esto permite el cumplimiento y la facturación automatizados, pasando el raspado de una práctica implícita y unilateral a una explícita y negociada.

La organización sin fines de lucro RSL Collective, fundada por figuras como el co-creador de RSS Eckart Walther y el ex CEO de Ask.com Doug Leeds, posiciona el estándar como una capa interoperable para el consentimiento y la compensación. En combinación con la aplicación al estilo Cloudflare, RSL apunta a un futuro en el que los rastreadores de IA no solo lean robots.txt para permisos técnicos, sino también para términos comercialmente vinculantes. Si los tribunales finalmente tratarán estas señales como obligaciones contractuales sigue siendo una cuestión legal abierta, pero la arquitectura para tal ecosistema está tomando forma rápidamente.

Del bloqueo al negocio: pago por rastreo e intercambio de valor

Para muchas redacciones y editores premium, el problema central no es el rastreo de IA en sí, sino el uso no compensado que reemplaza visitas, impresiones publicitarias y suscripciones. A medida que los sistemas de respuesta de IA mejoraron, los usuarios obtenían cada vez más lo que necesitaban sin hacer clic, incluso cuando esas respuestas se construían directamente a partir de los reportajes o análisis de los editores. Los primeros acuerdos de licencia, como los que algunos editores negociaron a través de intermediarios como TollBit, demostraron que los acuerdos de pago por acceso eran posibles, pero seguían siendo la excepción y no la regla.

El modelo “Pay Per Crawl” de Cloudflare a mediados de 2025 apunta a normalizar la compensación. Con él, los sitios web pueden monetizar el acceso de los rastreadores de IA por solicitud. Las empresas de IA que quieran leer contenido protegido deben pagar una tarifa medida o ser bloqueadas en el borde. Esto convierte efectivamente a los rastreadores de IA en consumidores de API facturables, alineando su uso con la economía de la creación y alojamiento de contenido. Si se adopta ampliamente, tales sistemas podrían trasladar el entrenamiento y recuperación de IA de una externalidad sin precio a un centro de costos predecible para los proveedores de IA.

Grandes editores y plataformas como Condé Nast, Associated Press, Reddit y Pinterest se han alineado con este enfoque. Muchos lo ven como una forma de recuperar parte del valor perdido cuando los sistemas de IA resumen o reempaquetan su contenido sin tráfico equivalente. Combinados con señales de licencia basadas en robots.txt y lenguaje legal en los términos de servicio que prohíbe el entrenamiento de IA no licenciado, las herramientas de pago por rastreo están ayudando a los editores a pasar del bloqueo defensivo a acuerdos proactivos y reparto de ingresos.

La aplicación se vuelve real: trampas, tarpits y el caso Perplexity

Los estándares técnicos solo funcionan si los rastreadores los respetan. Un número creciente de bots de IA y raspado lo hacen, pero otros han sido sorprendidos ignorando o evadiendo activamente los controles. Para detectar a estos actores maliciosos, los editores y proveedores de infraestructura están recurriendo a honeypots y defensas más agresivas. El artículo de 2025 sobre el sistema Logrip, por ejemplo, propone técnicas jerárquicas de hash de IP para identificar actividad coordinada de bots y limitarla antes de que abrume a las pequeñas organizaciones.

Uno de los episodios de aplicación más notorios ocurrió en agosto de 2025, cuando Cloudflare reveló que la startup de IA Perplexity había estado accediendo a sitios “trampa”: páginas no públicas que estaban bloqueadas en robots.txt y diseñadas específicamente para atrapar rastreadores que se portan mal. Según Cloudflare, los bots de Perplexity supuestamente se hacían pasar por Chrome y usaban IPs rotativas para eludir estos controles. En respuesta, Cloudflare revocó su verificación y comenzó a bloquear activamente los rastreadores de la empresa, citando una violación de confianza y desprecio por las reglas de acceso publicadas.

Más allá de la detección, algunos desarrolladores han pasado a la ofensiva con “tarpits” anti-IA como Nepenthes. Estos sistemas buscan atraer rastreadores no autorizados a vastos laberintos de páginas autogeneradas y servirles contenido sin sentido tipo “Markov babble”, desperdiciando recursos y contaminando los datos de entrenamiento. Inspirados en técnicas usadas previamente contra spammers de correo electrónico, los tarpits marcan un cambio de la resistencia pasiva, confiando solo en robots.txt, a la interferencia activa con bots que se niegan a respetar el consentimiento. Esta creciente carrera armamentista técnica subraya por qué muchos en el mundo de la política piden remedios legales más claros junto con defensas técnicas.

Robots.txt, ley y la lucha por la soberanía del autor

A medida que robots.txt adquiere más peso normativo en la era de la IA, abogados y académicos se preguntan qué responsabilidades legales y derechos, si es que existen, se le atribuyen. El análisis de 2025 “Las responsabilidades de robots.txt” destaca cómo el archivo abarca varias áreas del derecho: contrato (¿es una oferta que los bots aceptan?), derechos de autor (¿ignorarla equivale a infracción o uso justo?) y responsabilidad civil (¿el daño por rastreo abusivo podría dar lugar a reclamaciones?). Concluye que, si bien robots.txt es una poderosa norma técnica, su estatus legal sigue siendo ambiguo en muchas jurisdicciones.

Al mismo tiempo, se desarrolla un debate cultural paralelo bajo el lema de la “soberanía del autor”. Un manifiesto de 2025 con ese nombre aboga por un cambio del raspado asumido como uso justo hacia el consentimiento voluntario, negociado y la compensación contractual. En este marco, el entrenamiento de IA sin consentimiento no es una práctica técnica inocua, sino una explotación estructural de los autores, cuyo trabajo y expresión son monetizados silenciosamente por terceros a gran escala.

Algunas empresas de IA han comenzado a enfatizar su postura de cumplimiento como forma de navegar esta tensión. Anthropic, por ejemplo, consolidó sus rastreadores en un solo agente de usuario ClaudeBot y se comprometió explícitamente a respetar cualquier regla histórica de robots.txt que apuntara a sus IDs anteriores como Claude-Web o Anthropic-AI. Esa compatibilidad retroactiva significa que los editores que ya habían bloqueado esos bots anteriores no necesitan actualizar sus archivos para mantener fuera a Claude, reforzando robots.txt como un mecanismo de control duradero, aunque todavía en parte extralegal.

Rastreadores de recuperación, presión sobre el código abierto y la nueva realidad del tráfico

Un desarrollo clave que intensifica las preocupaciones de los editores es el cambio de los raspados de entrenamiento únicos a los rastreadores de recuperación persistentes y de alto volumen usados para respuestas de IA en vivo. Datos de TollBit, citados por el Washington Post, muestran que el tráfico de rastreadores de recuperación vinculados a sistemas como OpenAI y Anthropic creció un 49% desde finales de 2024 hasta principios de 2025, superando el crecimiento de los rastreadores de entrenamiento puro. Estos bots recuperan repetidamente contenido actualizado para alimentar respuestas conversacionales que pueden sustituir completamente las vistas de página.

Para las redacciones, esto significa que el costo de servir tráfico de IA es continuo, mientras que los beneficios suelen ser mínimos o inexistentes a menos que exista una licencia formal. Algunos editores, como Time, han utilizado las analíticas de TollBit para negociar acuerdos de recuperación pagada. Pero la mayoría sigue viendo un patrón de raspado no compensado junto con la caída de visitas humanas. Este desequilibrio es una de las principales razones por las que las asociaciones comerciales ahora emiten recomendaciones animando a sus miembros a bloquear o medir los rastreadores de IA a menos que existan acuerdos de reparto de ingresos.

Los desarrolladores de código abierto y pequeños, por su parte, enfrentan un problema diferente pero relacionado: la capacidad. Informes de 2025 describieron a mantenedores que encontraron los rastreadores de IA tan agresivos que tuvieron que bloquear países enteros o amplios rangos de IP solo para mantener su infraestructura a flote. Iniciativas comunitarias como ai.robots.txt ahora curan listas de agentes de usuario relacionados con IA y proporcionan plantillas listas de robots.txt y .htaccess para bloquearlos. Para estos creadores, recuperar el control es tanto una cuestión de supervivencia técnica como de justicia económica.

En conjunto, estos desarrollos marcan un punto de inflexión en la relación entre los sistemas de IA y la web abierta. Donde antes los rastreadores de IA se movían en gran medida sin control, los editores ahora cuentan con un arsenal creciente de herramientas: bloqueo a nivel de infraestructura, señales de contenido detalladas, licencias legibles por máquina vía RSL, modelos de acceso monetizado y, cuando es necesario, defensas activas contra bots no conformes. Ninguna de estas herramientas resuelve por sí sola las ambigüedades legales subyacentes ni garantiza una compensación justa, pero juntas cambian el predeterminado de extracción a negociación.

En los próximos años, los contornos de este nuevo acuerdo se definirán en contratos, organismos de estándares y tribunales. ¿Honrarán plenamente las plataformas de IA dominantes las directivas matizadas de robots.txt? ¿Madurarán los modelos de pago por rastreo y las capas de licencias en flujos de ingresos estables, o se fragmentarán en silos incompatibles? ¿Y evolucionará la ley para reconocer robots.txt y señales relacionadas como expresiones ejecutables de la intención del autor? Sea cual sea la respuesta a estas preguntas, una cosa está clara: los editores ya no son fuentes de datos pasivas para la IA. A través de una combinación de innovación técnica y presión colectiva, están comenzando a recuperar el control de cómo, cuándo y en qué términos su trabajo impulsa la próxima generación de sistemas inteligentes.

¿Listo para comenzar?

Empieza a automatizar tu contenido hoy

Únete a los creadores de contenido que confían en nuestra IA para generar artículos de blog de calidad y automatizar su flujo de publicación.

No se requiere tarjeta de crédito
Cancela en cualquier momento
Acceso instantáneo
Resumir este artículo con:
Compartir este artículo :