Cloudflare se adelanta al tráfico agéntico: así funciona su nuevo “AI Index” para webs preparadas para la era de los agentes de IA

Cloudflare acaba de mover ficha en uno de los debates clave de la nueva web impulsada por la inteligencia artificial: cómo deben acceder los agentes de IA al contenido de los sitios sin recurrir al scraping masivo y, además, permitiendo a los creadores controlar y monetizar ese acceso. La compañía lo llama AI Index, y es, en la práctica, un “índice de búsqueda optimizado para IA” que se genera automáticamente para cada dominio que lo active.

Lejos de ser una simple capa más de analítica o SEO, AI Index empaqueta varias piezas que, hasta ahora, estaban dispersas en el ecosistema: protocolos como MCP, archivos tipo llms.txt, APIs de búsqueda pensadas para modelos de lenguaje y un sistema de pub/sub para que las plataformas de IA reciban actualizaciones en tiempo real sin tener que rastrear una y otra vez el mismo sitio.

La idea de fondo es clara: si el tráfico del futuro va a venir cada vez más de agentes navegacionales y menos de usuarios humanos con navegador, hace falta un stack nuevo para hablar “de tú a tú” con esas IA.


De HTML para humanos a índices para IA

Hasta ahora, los modelos y agentes de IA han dependido de dos vías principales para usar contenido de la web:

  • Scraping de páginas HTML pensadas para humanos.
  • Acuerdos puntuales entre plataformas y grandes medios o proveedores de datos.

Ambos enfoques son frágiles: el HTML cambia, el scraping es caro y poco fiable, y los acuerdos uno a uno no escalan para todo el tejido de creadores. Cloudflare propone otra vía: que cada sitio exponga un índice estructurado específicamente para IA, gobernado por el propio propietario del dominio.

Cuando el dominio activa AI Index:

  • Cloudflare procesa y indexa el contenido del sitio usando la misma tecnología que alimenta su producto AI Search.
  • Ese contenido se trocea, se estructura y se expone a través de APIs y protocolos estándar que los agentes pueden consumir directamente, sin “adivinar” cómo navegar por el HTML.
  • El dueño del sitio decide qué se incluye, qué se excluye y quién puede acceder, todo conectado con las políticas de AI Crawl Control y con la posibilidad de cobrar por acceso gracias a Pay Per Crawl y el código de negocio x402.

Es, en esencia, un cambio de modelo: de “crawlers que rascan lo que pueden” a índices explícitos y permissionados.


Las piezas del nuevo stack agéntico de Cloudflare

AI Index no es una única API sino un conjunto de componentes diseñados para trabajar juntos y hablar el idioma de los agentes de IA:

1. Servidor MCP (Model Context Protocol)

Cloudflare levanta automáticamente un servidor MCP asociado al dominio. Los agentes compatibles (por ejemplo, herramientas que siguen el estándar MCP impulsado por Anthropic) pueden conectarse a ese servidor y:

  • Descubrir qué herramientas y datos ofrece ese sitio.
  • Lanzar consultas en lenguaje natural sobre el contenido.
  • Recibir respuestas ya estructuradas, sin tener que “rascar” HTML.

Además, AI Index incluye soporte para NLWeb, un proyecto abierto de Microsoft que define un protocolo estándar para consultas en lenguaje natural sobre webs. Es decir, los agentes ya no tienen que “inventarse” cómo interactuar con cada sitio.

2. Archivos llms.txt y llms-full.txt

Inspirados en el clásico robots.txt, estos nuevos archivos actúan como:

  • Un mapa legible por máquinas del contenido del sitio.
  • Una guía de qué se puede usar, cómo y con qué limitaciones.

Siguen estándares emergentes para que los modelos de lenguaje sepan, durante la inferencia, qué partes del contenido son relevantes y cómo acceder a ellas.

3. API de búsqueda que devuelve JSON, no HTML

AI Index expone una API de búsqueda flexible:

  • Responde en JSON estructurado, listo para que un agente lo procese.
  • Evita el coste de interpretar HTML, CSS o JavaScript pensados para humanos.
  • Permite construir buscadores internos modernos sobre el propio sitio usando el mismo índice que consumen los agentes externos.

4. API de datos masivos (bulk data)

Además de consultas puntuales, las plataformas de IA pueden:

  • Ingerir grandes volúmenes de contenido de golpe, bajo las reglas que marque el propietario.
  • Usar ese canal para entrenamiento, actualización de bases vectoriales o construcción de índices híbridos, sin lanzar miles de peticiones documento a documento.

5. Sistema pub/sub para actualizaciones en tiempo real

En lugar de rastrear constantemente una web para ver si algo ha cambiado, las plataformas pueden:

  • Suscribirse al índice del sitio.
  • Recibir eventos estructurados cada vez que se publica o actualiza contenido.
  • Decidir cuándo refrescar su copia o volver a consultar la API de búsqueda.

Este modelo de suscripción sustituye al crawling ciego por un flujo eficiente de cambios, algo clave en un escenario donde el coste de computación y ancho de banda es cada vez más sensible.

6. Directivas de descubrimiento para agentes

AI Index también añade:

  • Directivas en robots.txt y rutas /.well-known/ para que los agentes que visitan el sitio puedan descubrir de forma automática qué APIs y endpoints específicos de IA están disponibles.
  • Integración con AI Crawl Control para ver quién accede, con qué frecuencia y bajo qué reglas.

Monetización: del “todo gratis” al “pay per crawl”

Uno de los puntos más delicados del nuevo ecosistema IA–web es cómo se remunera a los creadores de contenido cuando su trabajo se usa para alimentar modelos o agentes.

Cloudflare conecta AI Index con:

  • Pay Per Crawl: un sistema mediante el cual los agentes y plataformas pagan por cada acceso al contenido de un sitio.
  • El encabezado y código de negocio x402, pensado para negociar y señalizar pagos y permisos de forma estandarizada.

La lógica es clara: si los agentes van a consumir contenido de forma masiva y automatizada, ese tráfico debe poder ser:

  1. Controlado (qué se deja usar, a qué frecuencia, con qué finalidad).
  2. Trazado (quién ha accedido, cuándo y cómo).
  3. Monetizado (de forma transparente y negociable).

Open Index: un “feed del web” para la era de los agentes

Además de los índices individuales por dominio, Cloudflare construirá una capa agregada llamada Open Index:

  • Es un índice opt-in, es decir, sólo incluye sitios que han decidido participar.
  • Ofrece filtros de calidad, originalidad, profundidad y relevancia para que los builders puedan seleccionar fuentes con mejores garantías.
  • Permite consultas sobre colecciones temáticas (por ejemplo, noticias, documentación técnica, ciencia) o sobre un conjunto más general de la web.

Para los desarrolladores de agentes y plataformas de IA, esto supone:

  • Un punto de entrada único para buscar contenido de múltiples sitios que ya han expuesto su AI Index.
  • Menos fricción a la hora de integrar decenas o centenares de fuentes.
  • Un modelo en el que la monetización fluye “de abajo arriba”: cada resultado procede de un índice individual y los pagos se reparten a esos sitios a través de Pay Per Crawl.

Qué cambia para creadores y para builders

Para propietarios de webs y creadores de contenido

Con AI Index, un sitio puede:

  • Controlar qué ve y cómo ve su contenido la IA, en lugar de depender de rastreos opacos.
  • Exponer un canal claro y estable para que agentes y plataformas accedan a la información.
  • Monetizar el acceso en lugar de asumir que todo tráfico de IA debe ser gratis.
  • Mejorar su propio buscador interno usando el mismo índice optimizado para IA.

En la práctica, es una forma de prepararse para un mundo donde buena parte de las visitas no vendrán de un navegador, sino de un modelo que actúa como intermediario entre el usuario y la web.

Para desarrolladores de agentes y plataformas de IA

AI Index y Open Index ofrecen:

  • Datos estructurados, permissionados y frescos.
  • Menos scraping, menos costes de crawling y menos sorpresas con HTML cambiantes.
  • Un modelo de pub/sub que evita recrawleos constantes.
  • Un marco claro de permisos, uso y compensación económica.

Un paso más hacia una web “legible por agentes”

Cloudflare no ha inventado de cero todos estos conceptos: recoge estándares y propuestas que ya venían emergiendo (MCP, NLWeb, archivos tipo llms.txt, señales de contenido y modelos de monetización como x402) y los empaqueta en un producto activable “con un clic”.

La dirección de viaje, sin embargo, es evidente: la web clásica pensada para humanos está dando paso, poco a poco, a una web paralela preparada para agentes de IA, con APIs claras, índices optimizados y reglas de juego más simétricas entre quien publica y quien consume.

Para las marcas, medios, ecommerce y proyectos basados en contenido, la decisión ahora no es si habrá tráfico agéntico, sino cómo quieren recibirlo: a través de scraping sin control, o desde un índice propio, estructurado, trazable y –si así lo desean– monetizable.

vía: blog.cloudflare.com

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Lo último

×