Actualidad, Guías y Recursos

El apetito insaciable de los bots de IA pone en jaque a la web abierta

Publicado el 25/03/2025
Por Maria José M.R.

La expansión imparable de la inteligencia artificial ha provocado un fenómeno alarmante: el abuso masivo de bots automatizados que recorren sin descanso las páginas web públicas para extraer datos. Esta práctica, conocida como scraping, está alcanzando niveles preocupantes y afecta no solo a proyectos de software libre, sino también a medios de comunicación, portales educativos y gigantes del conocimiento compartido como Wikipedia o la plataforma de archivos digitales web.archive.org.

La situación amenaza la sostenibilidad de las infraestructuras tecnológicas y plantea serias dudas sobre el futuro de la web abierta, donde el esfuerzo de miles de voluntarios y pequeñas organizaciones es devorado, sin permiso ni compensación, por las grandes compañías tecnológicas.

97 % de tráfico no humano: una cifra alarmante

El entorno de escritorio GNOME reveló recientemente datos impactantes: en apenas 2,5 horas, sus servidores recibieron 81.000 solicitudes, de las cuales solo un 3 % fueron verificadas como humanas. El restante 97 % procedía de bots automatizados que se saltan cualquier tipo de restricción. Estos sistemas no respetan archivos robots.txt, utilizan rangos masivos de IPs y camuflan sus identidades haciéndose pasar por navegadores móviles.

Otros proyectos, como KDE, Fedora, LWN o Frame Software, viven situaciones similares. La consecuencia es un gasto desorbitado en ancho de banda, caída de servicios y el desvío de recursos humanos y económicos para gestionar una batalla sin tregua.

Medios y portales educativos: el impacto silencioso

En nuestra propia red de medios especializados —donde destacan portales como administraciondesistemas.com o educacion2.com—, la situación es igualmente grave. En algunos sitios, el 90 % del tráfico registrado proviene de bots de IA, superando incluso el volumen de visitas originadas por Google.

Estos bots, que buscan desesperadamente cualquier fragmento de información, afectan las métricas de audiencia, distorsionan las estadísticas y complican la toma de decisiones editoriales. Además, saturan los servidores y encarecen el mantenimiento, afectando de forma directa a la viabilidad económica de proyectos independientes.

Wikipedia y web.archive.org, en el punto de mira

Las plataformas de conocimiento libre más emblemáticas del mundo también sufren las consecuencias del apetito voraz de las IA. Wikipedia y web.archive.org son algunos de los principales objetivos de los bots que buscan entrenar modelos de lenguaje y sistemas de aprendizaje automático. Estas plataformas registran millones de peticiones diarias que no proceden de usuarios interesados en consultar información, sino de sistemas automatizados que buscan extraer todo su contenido.

La ironía es evidente: proyectos creados para difundir el conocimiento de forma gratuita y altruista están siendo sistemáticamente explotados por corporaciones que transforman ese esfuerzo en productos comerciales, sin contribuir a su sostenimiento.

Los gigantes detrás del scraping masivo

El panorama actual tiene nombres propios: OpenAI, con su conocido GPTBot; ByteDance, con Bytespider; además de los bots de Claude, Perplexity y DeepSeek, entre otros. Estas empresas lanzan millones de solicitudes diarias para nutrir sus modelos de IA con contenido público de todo tipo, sin respetar límites ni solicitar permisos.

Aunque algunos bots permiten ser bloqueados a través del User Agent (UA), la mayoría opta por camuflarse, disfrazándose de navegadores móviles o usuarios genéricos para evitar ser detectados y continuar extrayendo datos a gran escala.

Costes ocultos y una batalla desigual

El daño causado por esta práctica va mucho más allá del consumo de ancho de banda. Los administradores de proyectos de software libre, portales educativos y medios digitales invierten enormes recursos para defenderse de estos ataques. Se requieren servidores más potentes, sistemas de filtrado avanzados y monitorización constante.

La realidad es injusta: el coste de mantener los sitios abiertos y funcionales recae sobre quienes producen contenido, mientras que los beneficios de esa explotación masiva son capturados por grandes empresas tecnológicas que entrenan sus modelos y lanzan productos al mercado sin ningún tipo de compensación para las fuentes de origen.

Las herramientas de defensa y sus limitaciones

Algunas plataformas, como GNOME, han recurrido a sistemas de prueba de trabajo como Anubi, que obliga a resolver un cálculo antes de conceder acceso. Sin embargo, esto también penaliza a los usuarios legítimos y dificulta la experiencia de navegación.

Por otro lado, el filtrado por User Agent es insuficiente: muchos bots se camuflan o utilizan rotaciones automáticas de identidad. El filtrado por IP es casi imposible de mantener debido al uso masivo de rangos y proxys por parte de estos rastreadores.

¿El fin de la web abierta?

Si esta tendencia no se frena, muchas plataformas podrían verse obligadas a cerrar el acceso público o a limitar severamente sus servicios. La filosofía del conocimiento libre y del software de código abierto corre el riesgo de verse comprometida, desplazada por un modelo donde la información se convierte en un recurso privado extraído sin permiso y transformado en productos cerrados.

Proyectos como Wikipedia, que dependen de donaciones y voluntariado, están destinando cada vez más recursos a defenderse de estos abusos. web.archive.org, cuyo propósito es preservar el contenido histórico de internet, sufre una presión similar, viendo cómo sus archivos son saqueados masivamente para alimentar modelos que no devuelven nada a cambio.

Una llamada a la regulación internacional

Cada vez son más las voces que piden una regulación global que limite el scraping masivo de contenido público por parte de las grandes corporaciones. Expertos en derechos digitales, académicos y administradores de plataformas abogan por la creación de licencias específicas para el uso de datos públicos en el entrenamiento de modelos de IA y por mecanismos de compensación económica para los sitios afectados.

Sin estas medidas, el futuro de la web abierta parece condenado a ser un recurso agotado por la voracidad de las máquinas, dejando tras de sí servidores colapsados, proyectos sin financiación y un internet menos libre, menos plural y menos justo.

Fuente: Noticias inteligencia artificial