La industria de la inteligencia artificial lleva meses repitiendo el mismo mantra: “no copiamos, aprendemos”. Pero, a medida que avanzan los litigios en EE. UU. y se filtran correos internos, el debate deja de ser filosófico y pasa a ser logístico, contable y legal. ¿De dónde sale el conocimiento con el que se entrenan los grandes modelos? ¿Quién paga —y quién no— por esos datos? Y, sobre todo, ¿qué ocurre cuando la ruta más rápida para conseguirlos pasa por una de las mayores bibliotecas pirata del planeta?

Eso es, precisamente, lo que ha colocado a NVIDIA en el foco: una demanda colectiva de autores sostiene que la compañía llegó a contactar con Anna’s Archive, un repositorio que actúa como “meta-buscador” y agregador de enlaces a colecciones masivas de libros y papers no autorizados. Según la denuncia, el intercambio no fue una curiosidad académica, sino una conversación sobre acceso de alta velocidad a datos a escala industrial.

Qué se alega exactamente

En la demanda consolidada presentada contra NVIDIA, los demandantes aseguran que el equipo de estrategia de datos de la compañía habría explorado la obtención de un volumen gigantesco de material —se menciona el orden de cientos de terabytes— para alimentar pipelines de entrenamiento. Según el texto, desde Anna’s Archive se habría advertido explícitamente de la naturaleza no autorizada del contenido, y aun así el proceso habría seguido adelante tras obtener luz verde interna en un plazo breve (la denuncia habla de una decisión acelerada).

Conviene subrayarlo: esto es una alegación dentro de un procedimiento judicial, no una prueba definitiva de descarga efectiva de obras concretas. Pero tiene dos implicaciones inmediatas.

La primera es reputacional: para una empresa que se ha convertido en el sinónimo de “picos y palas” de la fiebre de la IA, que aparezca su nombre vinculado a una “shadow library” añade gasolina a una discusión que ya estaba encendida.

La segunda es estratégica: el caso ilustra lo fácil —y comparativamente barato— que puede resultar acceder a cantidades masivas de texto frente a lo complejo que sería negociar licencias obra por obra, editorial por editorial.

NVIDIA se defiende: “contactar no prueba que se usara”

La propia NVIDIA, en su estrategia procesal, ha buscado desactivar la conexión causa-efecto. En una moción para desestimar (motion to dismiss), la compañía argumenta, en esencia, que incluso si existió el contacto o el interés, eso no demostraría que se descargaran libros específicos de los demandantes ni que esos textos se integraran en el entrenamiento de los modelos. La audiencia asociada a esa moción figura programada para abril de 2.026 (según el calendario reflejado en el propio documento judicial).

Es el mismo tipo de defensa que se ve en otras batallas del sector: separar el “ruido” (conversaciones, evaluaciones, datasets potenciales) de la “acción” (uso real de material concreto) y obligar a los demandantes a demostrar trazabilidad.

Por qué este caso importa más allá de NVIDIA

Este episodio no se entiende sin el contexto mayor: la guerra del copyright contra la IA generativa. Los autores, medios y titulares de derechos sostienen que se ha construido una economía multimillonaria a partir de contenidos que, en muchos casos, no se licenciaron. Las empresas de IA responden con dos líneas principales:

  1. que el entrenamiento es uso transformativo (fair use en el marco estadounidense), y
  2. que los modelos no “contienen copias” como una biblioteca, sino representaciones estadísticas.

El problema es que el debate ya no está solo en el “qué”, sino en el “cómo”. Porque una cosa es entrenar con datasets adquiridos, públicos o licenciados; y otra, muy distinta, es que en la cadena aparezcan repositorios diseñados para distribuir obras sin permiso.

El espejo Meta: decenas de terabytes y el rastro de los correos

La controversia se amplifica porque no es un fenómeno aislado. En el caso de Meta, documentos citados por medios que han seguido de cerca el litigio apuntan a descargas masivas “por torrent” desde bibliotecas en la sombra. En concreto, se ha llegado a mencionar un volumen de al menos 81,7 TB procedente de múltiples fuentes, incluyendo Anna’s Archive, además de otros datos desde repositorios como Z-Library o LibGen.

Ese detalle —el “seeding”, la mecánica de distribución y el rastro operativo— es clave: jurídicamente no es lo mismo “leer” que “redistribuir”. Y a nivel de opinión pública, tampoco.

La verdadera pregunta: ¿cuánto cuesta “robar conocimiento”?

El gran giro de esta historia es económico. Incluso sin dar por buenos todos los extremos, el marco general es evidente: a escala de IA, el coste marginal de obtener texto puede ser ridículo frente a la inversión en GPUs, centros de datos y energía.

Si un actor logra acceder a cientos de terabytes por una fracción de lo que costaría licenciar —aunque luego asuma riesgo legal— el incentivo existe. Y el mercado, cuando tiene incentivos, suele encontrar rutas.

De hecho, la propia demanda contra NVIDIA describe que estas bibliotecas manejan dinámicas de “acceso” orientadas a clientes con capacidad de pago y necesidades de ancho de banda. Esa es la parte que inquieta a editores y autores: no se trata de “piratería doméstica”, sino de canales de suministro.

Qué puede pasar ahora

A corto plazo, el foco está en dos frentes:

  • Procesal: si las demandas superan o no las primeras barreras (mociones para desestimar) y si los jueces obligan a concretar qué obras se usaron y cómo.
  • Industrial: si el sector acelera acuerdos de licencia (como ya ocurre en música, prensa o archivo audiovisual) o si se normaliza un escenario híbrido: parte licenciada, parte “zona gris”, parte datos sintéticos.

A medio plazo, la pregunta no es solo quién gana en los tribunales, sino qué modelo de mercado emerge. Porque si el entrenamiento de IA termina dependiendo de “bibliotecas en la sombra”, el sistema de incentivos para producir libros, investigación y contenido original se erosiona. Y eso, paradójicamente, empobrece el material del que se alimentan los propios modelos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Lo último

×