La auditoría del acceso de los rastreadores de IA ha pasado rápidamente de ser una preocupación de nicho para webmasters a convertirse en un requisito operativo generalizado. Los editores, las empresas SaaS, los equipos de comercio electrónico y las organizaciones de medios ahora necesitan saber qué sistemas de IA visitan sus sitios, qué contenido solicitan, si esas solicitudes se ajustan a las políticas declaradas y qué valor comercial obtienen a cambio. La antigua suposición de que robots.txt por sí solo puede gestionar el acceso automatizado ya no es suficiente en un entorno donde los rastreadores de IA, los bots de búsqueda, los archivadores y los recuperadores activados por usuarios se comportan de manera diferente.
Los cambios recientes en las plataformas hacen que esto sea mucho más fácil de medir, pero también elevan el nivel de exigencia en materia de gobernanza. Cloudflare, por ejemplo, cambió el nombre de su oferta de “AI Audit” a “AI Crawl Control” y afirma que ahora proporciona tanto herramientas de visibilidad como de aplicación para el acceso de rastreadores de IA, incluido el monitoreo por rastreador y por patrones de solicitud. Al mismo tiempo, la documentación de OpenAI, Anthropic y Google separa cada vez más los roles de los rastreadores según su propósito, lo que significa que una auditoría seria no debe centrarse solo en quién rastrea, sino también en por qué.
Por qué el acceso de los rastreadores de IA ahora merece una auditoría formal
La escala del tráfico automatizado es una de las razones más claras para formalizar este trabajo. Cloudflare informó que los bots representaron el 30% del total de solicitudes durante un período de medición de principios de 2025, y la empresa afirma que protege alrededor del 20% de internet, lo que le da una visibilidad excepcionalmente amplia sobre el comportamiento de los rastreadores. En otras palabras, el acceso de los rastreadores de IA ya no es un caso marginal enterrado en los registros del servidor; forma parte de una ola mucho mayor de tráfico de bots que ya afecta a la infraestructura, la analítica y las operaciones de seguridad.
El tráfico específico de IA también se está acelerando. Los informes del sector en 2025 describieron un fuerte aumento del tráfico de bots de IA, con una estimación citada que pasó de aproximadamente 1 visita de bot de IA por cada 200 visitas humanas a comienzos de 2025 a aproximadamente 1 por cada 31 visitas humanas más tarde ese mismo año. DataDome dijo de forma similar que el tráfico de bots y rastreadores de IA creció del 2.6% del tráfico de bots verificados en enero de 2025 a más del 10.1% en agosto de 2025. Ese crecimiento significa que la cuestión ya no es si auditar el acceso de los rastreadores de IA, sino con qué rapidez los equipos pueden hacerlo de forma repetible.
También existe una razón estratégica para actuar ahora. El CEO de Cloudflare dijo que el tráfico de bots podría superar al tráfico humano en línea para 2027, y la empresa citó posteriormente cientos de miles de millones de solicitudes de scraping de bots de IA que había bloqueado en cuestión de meses. Aunque las estimaciones individuales puedan variar, la dirección operativa es clara: las organizaciones que no auditen el acceso de los rastreadores de IA tomarán cada vez más decisiones de política a ciegas, mientras los rastreadores siguen consumiendo ancho de banda, contenido y capacidad de origen.
Por qué robots.txt es necesario pero no suficiente
Una auditoría adecuada comienza por comprender los límites de robots.txt. La RFC 9309 deja claro que el protocolo de exclusión de robots es algo que se pide a los rastreadores que respeten; no es un mecanismo de aplicación obligatoria. Esta distinción es importante porque muchos propietarios de sitios todavía tratan robots.txt como si fuera un control técnico estricto, cuando en realidad es una señal de política legible por máquina que depende del cumplimiento del rastreador.
Las investigaciones recientes refuerzan esa debilidad. Un estudio empírico de 2025 encontró que los scrapers a menudo no respetan completamente robots.txt, especialmente las directivas más estrictas, y que algunas categorías de bots, incluidos los rastreadores de búsqueda con IA, rara vez comprobaban siquiera el archivo. Otro artículo de 2025 sostuvo que la gobernanza en la era de la IA somete a tensión a un protocolo diseñado originalmente como guía voluntaria. En conjunto, estos hallazgos respaldan una buena práctica pragmática: comparar los permisos declarados con el comportamiento real observado en registros, analítica de CDN o herramientas de gestión de bots.
Por eso la aplicación a nivel de infraestructura se ha vuelto central en el proceso de auditoría. Cloudflare ha planteado públicamente que la aplicación es más sólida que depender solo de robots.txt, subrayando el valor de detener a los bots antes de que lleguen al sitio web. Para los equipos que auditan el acceso de los rastreadores de IA, esto significa que la política debe existir al menos en dos lugares: un conjunto de reglas público como robots.txt, y una capa de aplicación verificable a nivel de CDN, WAF o proxy inverso.
Cómo Cloudflare cambió el flujo de trabajo de auditoría
Uno de los desarrollos recientes más importantes es que Cloudflare cambió el nombre de “AI Audit” a “AI Crawl Control” y lo posicionó explícitamente como un producto de visibilidad más aplicación. Según la documentación de Cloudflare, el sistema ofrece a los propietarios de sitios visibilidad sobre qué servicios de IA están accediendo a su contenido y les permite gestionar ese acceso según sus preferencias, incluido el monitoreo por rastreador y por patrones de solicitud. Este enfoque es importante porque convierte el acceso de los rastreadores de IA de un problema vago de bots en una superficie de control operativo medible.
Cloudflare también afirma que AI Crawl Control está disponible en todos los planes de Cloudflare con auditoría sin configuración. Esto supone un gran cambio para la adopción práctica. En lugar de construir una auditoría de rastreadores completamente a partir de registros de origen, análisis personalizados y heurísticas de user-agent, los propietarios de sitios ahora pueden empezar en la capa de CDN o WAF con la recopilación automática de actividad de rastreadores de IA. En muchos entornos, esto reduce el costo de establecer un inventario inicial de quién rastrea y qué solicita.
La plataforma también se ha vuelto más granular. El registro de cambios de Cloudflare indica que los usuarios pueden desglosar la actividad “Por rastreador”, incluidos rastreadores identificados como GPTBot, ClaudeBot y Bytespider. Cloudflare también ha descrito capacidades del panel, como recuentos de solicitudes por bot, actividad a nivel de ruta y filtros por categoría como “AI Search” y “AI Crawler”. Para una auditoría de acceso, esto es especialmente útil porque lleva la conversación más allá del volumen genérico de bots hacia preguntas concretas: ¿qué rastreadores están activos, con qué frecuencia visitan y qué rutas están tocando?
Auditar por propósito del rastreador, no solo por proveedor
Una auditoría moderna del acceso de rastreadores de IA debe clasificar los bots por función, no solo por nombre de empresa. Los propios materiales de Cloudflare separan categorías como AI Data Scraper, AI Search Crawler y Archiver, mientras que OpenAI distingue entre GPTBot y OAI-SearchBot. Esta distinción es crítica porque una misma organización puede operar rastreadores con implicaciones comerciales y normativas diferentes. Un editor puede querer visibilidad y citas en resultados de búsqueda con IA, pero no querer que sus páginas se utilicen para el entrenamiento de modelos.
La guía para editores de OpenAI es explícita en este punto. La empresa dice que GPTBot controla el acceso para entrenamiento, mientras que OAI-SearchBot controla la inclusión en las experiencias de búsqueda de ChatGPT. También afirma que, si los editores quieren que el contenido sea encontrado, mostrado, citado y enlazado en la búsqueda de ChatGPT, no deberían bloquear OAI-SearchBot. Esto crea un requisito práctico de auditoría: comprobar si las reglas actuales bloquean accidentalmente la inclusión en búsqueda mientras intentan evitar la ingesta para entrenamiento.
Anthropic añade otra capa. Su documentación de ayuda indica que ClaudeBot se utiliza para recopilar contenido web que puede contribuir al entrenamiento del modelo, lo que lo convierte en un user-agent de alta prioridad para los sitios preocupados por el acceso a datos de entrenamiento. El debate reciente en torno a la documentación actualizada de Anthropic también sugiere que los propietarios de sitios deberían revisar múltiples roles de rastreadores relacionados con Claude en lugar de asumir que solo existe uno. La conclusión general es sencilla: la política de acceso debe mapearse al menos entre entrenamiento, citación en búsqueda, recuperación activada por el usuario y archivado.
Cómo separar la visibilidad en búsqueda de la exposición al entrenamiento
Uno de los resultados más importantes de un programa para auditar el acceso de los rastreadores de IA es la capacidad de separar el tráfico que ayuda al descubrimiento del tráfico que principalmente extrae valor. OpenAI ofrece el ejemplo actual más claro. Un sitio puede prohibir GPTBot en páginas que no quiere que se usen para posible entrenamiento y seguir permitiendo OAI-SearchBot si desea inclusión en los resultados de búsqueda de ChatGPT. Los materiales más recientes de navegador y búsqueda de OpenAI también repiten que las páginas web excluidas mediante GPTBot no se utilizan para entrenamiento, incluso si un usuario opta por separado por el entrenamiento del modelo en otros contextos.
Esta distinción es valiosa porque permite a los editores hacer concesiones más precisas. Si el objetivo es tráfico y citación, permitir rastreadores centrados en búsqueda puede ser beneficioso, mientras que los rastreadores enfocados en entrenamiento pueden ser restringidos. Las funciones de categorización de Cloudflare respaldan este modelo al permitir a los equipos revisar por separado clases de bots como AI Search y AI Crawler. Por tanto, una auditoría debe verificar tanto la intención de la política como el flujo de solicitudes observado: ¿siguen los bots de entrenamiento accediendo a rutas que deberían estar excluidas, y pueden los bots de búsqueda llegar al contenido destinado al descubrimiento?
El ecosistema de Google complica aún más el panorama porque no toda recuperación automatizada es una indexación clásica. Google documenta recuperadores activados por el usuario utilizados para funciones como la verificación de Search Console, lo que significa que una auditoría simplista de bots puede clasificar erróneamente flujos de trabajo legítimos del producto como scraping autónomo. Mientras tanto, el análisis de Cloudflare de 2025 señala que Googlebot es relevante para las auditorías de acceso de IA porque algunos grandes operadores utilizan rastreadores de doble propósito. La lección es evitar suposiciones generales y, en su lugar, asignar cada recuperador a un propósito específico antes de permitirlo, limitar su tasa o bloquearlo.
Qué medir en una auditoría real del acceso de rastreadores de IA
La primera métrica es sencilla: volumen de solicitudes por rastreador y por categoría. Cloudflare dice que su panel puede resumir los recuentos de solicitudes por bot y desglosar la actividad por rastreador, lo que facilita identificar qué agentes son los más activos. Esto importa porque los recuentos brutos de bots no cuentan toda la historia. Un rastreador de entrenamiento de bajo volumen que toque contenido premium altamente sensible puede ser más importante que un rastreador de búsqueda de alto volumen que acceda a páginas públicas siguiendo un patrón bien entendido.
La segunda métrica es la actividad a nivel de ruta. Cloudflare afirma que AI Crawl Control puede proporcionar resúmenes por ruta, lo cual es esencial para comprender qué tocaron realmente los rastreadores. Durante una auditoría, compare esas rutas con su política de acceso prevista. ¿Están los bots de IA dedicando tiempo a archivos de artículos, páginas de detalle de productos, endpoints similares a API, imágenes, PDF o recursos desconectados pero comercialmente valiosos? Una revisión a nivel de ruta a menudo revela desajustes entre reglas de alto nivel y exposición en el mundo real.
La tercera métrica es el valor posterior. OpenAI dice que los editores pueden rastrear el tráfico de referencia de ChatGPT mediante utm_source=chatgpt.com en las URL de referencia. Esto proporciona a los equipos una forma concreta de comparar la actividad de rastreo con las visitas atribuibles. Esto es cada vez más importante porque Cloudflare sostiene que la economía de rastreo a referencia está empeorando para los editores, lo que significa que el volumen de rastreo no necesariamente se corresponde con un retorno equivalente en tráfico de usuarios. Por lo tanto, una auditoría eficaz debe medir no solo el acceso y el consumo de recursos, sino también los resultados de referencia, citación y conversión asociados con cada clase de rastreador.
Cómo verificar la identidad y evitar suposiciones erróneas
Las cadenas de user-agent son solo el punto de partida de la verificación. Las disputas públicas recientes, incluido el choque de Cloudflare con Perplexity sobre transparencia de rastreadores y cumplimiento de políticas, muestran por qué la identificación de rastreadores puede requerir algo más que hacer coincidir un solo nombre en los registros. En algunos casos, se necesitan rangos de IP, firmas, contexto de la solicitud y clasificaciones de gestión de bots para determinar si el tráfico realmente pertenece al rastreador declarado o si otro sistema está imitando un user-agent conocido.
Este paso de verificación es especialmente importante porque las decisiones de política pueden tener consecuencias tanto de SEO como de ingresos. Si un equipo bloquea un rastreador legítimo relacionado con la búsqueda basándose en una regla de identificación incompleta, puede reducir la citación o el descubrimiento. Por otro lado, si permite una fuente de tráfico basándose únicamente en una cadena de user-agent declarada, puede abrir la puerta al scraping o a la recopilación de datos de entrenamiento que no se alinean con la política. Por lo tanto, una auditoría sólida combina revisión de registros, datos de bots verificados cuando están disponibles, validación de DNS inversa o de IP donde esté documentada, y telemetría de infraestructura.
La amplia visibilidad de red de Cloudflare ayuda aquí, y sus vistas bot por bot son útiles para separar los principales rastreadores verificados. Pero incluso así, los auditores deberían mantener un registro de niveles de confianza: identidad confirmada, identidad probable o afirmación no verificada. Esta es una forma práctica de evitar un exceso de confianza al tomar decisiones de permitir, desafiar, bloquear o monetizar basadas en señales incompletas.
Por qué el acceso de los rastreadores de IA es ahora una cuestión de política empresarial
Ya no es exacto tratar el acceso de los rastreadores de IA como solo un problema técnico de filtrado. La dirección de producto de Cloudflare en 2025 incluyó “Pay Per Crawl”, que permite a los propietarios de sitios cobrar a los bots mientras deja pasar gratis a los humanos. Ese desarrollo muestra la rapidez con la que este espacio está avanzando más allá de la mecánica de permitir o bloquear hacia marcos de política que combinan monetización, permisos y aplicación. En otras palabras, la auditoría se está convirtiendo en la base para la negociación comercial.
También hay evidencia creciente de que los propietarios de sitios ya están restringiendo el acceso a gran escala. Cloudflare informó que los rastreadores de IA fueron los user agents totalmente prohibidos con mayor frecuencia encontrados en archivos robots.txt en 2025, y amplió Radar a comienzos de 2025 para analizar las reglas de acceso de bots de IA en los 10.000 dominios principales. Esas señales a nivel de ecosistema sugieren que la auditoría de rastreadores de IA ahora es observable como una tendencia macro, no solo una preocupación privada enterrada dentro de equipos editoriales y de plataforma.
Al mismo tiempo, los actores históricos de la búsqueda siguen formando parte de la ecuación. Cloudflare afirma que Googlebot fue el bot verificado de mayor volumen en toda su red y representó el 39% de todo el tráfico de rastreadores de IA y búsqueda en un análisis de 2025, incluso cuando los rastreadores específicamente de IA estaban creciendo más rápido. Así que cuando las organizaciones auditan el acceso de los rastreadores de IA, no deberían limitar su alcance solo a OpenAI y Anthropic. El verdadero desafío de gobernanza incluye a los operadores de búsqueda establecidos, los rastreadores de doble propósito, los nuevos agentes de IA y los mecanismos de recuperación activados por usuarios que se cruzan con la visibilidad, la carga y la gestión de derechos.
Un marco práctico para auditorías continuas
Un modelo operativo útil comienza con el inventario. Enumere cada rastreador conocido o recuperador automatizado que toque el sitio, y luego asigne cada uno a un propósito: entrenamiento, citación en búsqueda de IA, indexación de búsqueda tradicional, recuperación activada por el usuario, archivado o desconocido. Después de eso, documente la política prevista para cada clase tanto en la capa de robots.txt como en la capa CDN/WAF. Esto ayuda a descubrir desalineaciones comunes, como permitir un rastreador en robots.txt mientras se bloquea aguas arriba, o viceversa.
El siguiente paso es la validación. Utilice analítica de infraestructura, como las vistas de AI Crawl Control de Cloudflare, para comprobar con el tiempo los recuentos de solicitudes, la actividad a nivel de ruta y las categorías de bots. Revise si el comportamiento observado coincide con los permisos declarados. Si su política dice que la inclusión en búsqueda está permitida pero el entrenamiento no, debería ver actividad de rastreadores relacionados con búsqueda donde se espera y ningún acceso exitoso de bots de entrenamiento bloqueados. Si su política dice que un rastreador está denegado, cualquier intento repetido de solicitud debería ser visible como bloqueado o desafiado en lugar de llegar silenciosamente al origen.
Por último, vincule la auditoría con los resultados. Haga seguimiento del tráfico de referencia, especialmente de indicadores conocidos como utm_source=chatgpt.com cuando corresponda, y compare este valor con la carga de rastreo, el costo de infraestructura y la sensibilidad del contenido. Revise las decisiones regularmente porque los roles de los rastreadores y la documentación de los proveedores cambian rápidamente. Los mejores programas para auditar el acceso de los rastreadores de IA no son proyectos puntuales; son ciclos recurrentes de gobernanza que conectan seguridad, SEO o GEO, analítica, política legal y estrategia de ingresos.
Auditar el acceso de los rastreadores de IA es ahora una necesidad práctica porque la audiencia automatizada de la web es cada vez más grande, diversa y económicamente importante. El enfoque actual más sólido no consiste en depender de un único control, sino en combinar la política declarada en robots.txt, la observación verificada en registros y paneles, y la aplicación en la capa de infraestructura. Las herramientas recientes de Cloudflare hacen que este proceso sea más accesible, pero el valor real proviene de las decisiones de política construidas sobre esa visibilidad.
Para la mayoría de las organizaciones, el cambio clave es conceptual: dejar de pensar en los “bots de IA” como un solo grupo. Audite por propósito, verifique por comportamiento y mida por resultados. Cuando los equipos pueden distinguir el entrenamiento de la búsqueda, las recuperaciones activadas por usuarios del scraping autónomo, y el costo del valor de referencia, pueden crear reglas de acceso que sean defendibles, adaptables y alineadas tanto con la realidad técnica como con los objetivos empresariales.