La mitad de Internet ya la escribe una IA: qué nos dice el dato, por qué importa y hacia dónde (no) queremos que vaya la Red

Si no ha ocurrido ya, ocurrirá en breve: más artículos publicados en la web estarán escritos por máquinas que por personas. Esa es la conclusión —matizada, pero contundente— de un análisis reciente que, tras revisar 65.000 páginas con marcado de artículo, estima que la mayoría serían generadas por IA según un detector automático. El hallazgo tiene límites (muestra, idioma, sesgos de detección), pero apunta a una tendencia difícil de negar: el texto sintético escala más rápido y más barato que cualquier redacción humana.

La noticia no es solo un dato curioso. Es un punto de inflexión cultural y económico. ¿Qué significa para la confianza, la educación, la política, el marketing y los propios buscadores? ¿En qué clase de Internet queremos vivir dentro de 12, 24 o 36 meses, cuando la proporción de contenidos fabricados por modelos generativos haya crecido aún más? Este reportaje repasa cómo se ha medido, qué fallas tiene el método, qué efectos prácticos veremos y, sobre todo, plantea una crítica a la deriva que estamos alimentando entre todos.


Qué se ha medido (y cómo leerlo sin caer en el titular fácil)

El estudio parte de Common Crawl, una de las mayores hemerotecas públicas de la web. De ahí extrae 65.000 URLs en inglés con marcado de artículo o listicle, publicadas entre 2020 y mayo de 2025 y con al menos 100 palabras. Cada texto se trocea en bloques de 500 palabras y se clasifica con un detector de IA. Si más del 50 % del contenido de un artículo aparece como “IA”, la pieza completa se considera generada por IA.

Para calibrar errores, se hace algo sensato: tomar artículos pre-ChatGPT (enero de 2020–noviembre de 2022) como aproximación a “humanos” y medir cuántos el detector marca erróneamente como IA (4,2 %, falsos positivos). En sentido inverso, se generan 6.009 textos con un modelo moderno y se comprueba cuántos “se escapan” del detector (0,6 %, falsos negativos en esa prueba).

contenidos generados inteligencia artificial

¿Perfecto? No. Cambie usted de detector o el umbral y los porcentajes se mueven. Y asumir que todo lo de 2020–2022 es “humano” ignora automatizaciones previas. Pero como indicador de tendencia, el resultado cuadra con lo que cualquiera que trabaje en contenidos ve a diario: más output, más rápido, más barato… y más parecido.


Lo que viene si seguimos por esta pendiente

1) La inflación de palabras (y la deflación de valor)

Cuando el coste marginal de una página cae a casi 0 €, el incentivo es producir volumen: guías, comparativas, FAQs, reseñas y resúmenes en escala industrial. Eso satura buscadores, asistentes y redes de texto “correcto” pero intercambiable. En una economía de atención finita, el precio del contenido genérico tiende a cero.

2) El bucle de retroalimentación

Las IA que resumen contenidos generados por IA para entrenar nuevas IA componen un “ruido de ecos”. Sin intervención humana —reporting, criterio, contraste— los errores se reciclan, las fuentes se diluyen y el sesgo se congela. El resultado es una web de resúmenes de resúmenes, cada vez más lejos de la realidad.

3) El SEO como guerra de desgaste

La vieja máxima de “publica más que tu competencia” se convierte en carrera armamentística: quien más textos saque al día “ocupa” más SERPs y más respuestas de asistentes. Pero a medio plazo ni Google ni los chatbots pueden permitirse listados y respuestas idénticas. Veremos re-ranking agresivo hacia utilidad, procedencia y prueba. El atajo de hoy es el penalti de mañana.

4) La erosión de la confianza

Si el usuario empieza a asumir que todo puede ser un “auto-complete” convincente, la carga de la prueba cambia de lado. Pedirá rastros de origen (fotos propias, datos propios, nombres propios, documentos, C2PA, auditorías), no promesas. Y será menos tolerante con errores: “si lo has fabricado a máquina, revísalo a conciencia”.


La crítica de fondo: el problema no es la IA, es el modelo de incentivos

No es la herramienta la que degrada Internet, es el sistema. Durante años hemos medido éxito con métricas que la IA puede optimizar sin despeinarse: volumen, palabras clave, tiempo medio en página, páginas por sesión, CTR. A eso se suman:

  • Publicidad a CPM que premia impresiones, no veracidad.
  • Afiliación que recompensa tráfico masivo de baja intención con “top-10” reciclados.
  • Asistentes que “se comen” tráfico upstream y devuelven resúmenes (muchas veces sin atribución visible).
  • Plataformas que castigan cambios de formato (del texto al vídeo, del vídeo corto al carrusel) y empujan a los creadores a jugar al algoritmo.

La IA no inventa nada de esto; lo exacerba. Porque donde antes hacían falta 20 redactores y 6 meses, ahora basta un operador y un pipeline. Si no cambiamos los incentivos, el resultado lógico es una web abarrotada de contenido medianamente útil —o directamente redundante— y una minoría de islas de calidad cada vez más caras de sostener.


Cómo revertir la pendiente sin “apagar” la innovación

Buscadores y plataformas: provenance > detección

Los detectores fallan por definición ante textos editados, traducidos o híbridos. El siguiente paso sensato es marcado de procedencia a nivel técnico: C2PA, firmas criptográficas, metadatos robustos, logs de edición. Menos adivinación, más verificación. Y premios de ranking a lo verificable, reciente y útil.

Medios: reporting y datos propios

Si todo el mundo puede escribir una guía “qué es X”, la ventaja es hacer algo que nadie más puede: llamar, comprobar, salir a la calle, acceder a información primaria, publicar datasets descargables, crear herramientas (calculadoras, comparadores, simuladores) y mantener páginas vivas que se actualizan de verdad.

Marcas: E-E-A-T con pruebas

Experiencia y autoridad se demuestran con evidencias: casos reales, fotos propias, contratos, certificaciones, código, repositorios, papers internos. Menos “somos líderes”, más “aquí tienes nuestros datos y cómo los recogimos”.

Educación: evaluar distinto

La caza de brujas con detectores solo genera falsos positivos y frustración. Mejor viva-voz, versionado (historial de cambios), proyectos con trazabilidad y ejercicios que obliguen a conectar fuentes y defender decisiones. Alfabetización en IA no es prohibir, es enseñar a usar y a cuestionar.

Publicidad: medir de nuevo la calidad

Comprar inventario a granel en un ecosistema sintético exige nuevos controles: engagement genuino, permanencia revisitada, brand safety que no dependa de listas negras, y —otra vez— trazabilidad del origen del contenido.


¿Y si aceptamos que “la IA escribe” y ponemos el foco en lo que no puede hacer sola?

La máquina predice palabras con maestría, pero sigue siendo peor en:

  • Descubrir información que no está publicada (reporting).
  • Entender matices locales, regulatorios o culturales sin guía.
  • Construir relaciones y acceder a fuentes.
  • Asumir responsabilidad editorial y arriesgar una tesis.

Ese es el hueco de valor. Un Internet sano no es aquel donde ninguna IA escribe, sino aquel donde lo humano importa porque hay algo real que contar: datos, trabajo de campo, diseño, código, experiencia, conflicto, criterio. Lo demás —resúmenes, reescrituras, FAQs— se puede automatizar… siempre con revisión humana, fechas, fuentes y metadatos de procedencia.


Seis decisiones prácticas que puedes tomar hoy

  1. Inventario: audita tu web y borra lo redundante; fusiona y actualiza páginas pilar con evidencias.
  2. Marcas y medios: añade sección de métodos y datasets reutilizables; permite descargas y citación.
  3. Metadatos: implementa schema completo (autor, fecha, revisiones), agrega marcado de procedencia y sellos cuando existan.
  4. Procesos: si usas IA, documenta el human-in-the-loop (quién revisa qué, bajo qué criterios).
  5. Producto: convierte contenido en herramientas (comparadores, mapas, calculadoras) que no sean “solo texto”.
  6. Cultura: premia descubrimiento y verificación por encima de volumen. Lo que se incentiva, crece.

Conclusión: ¿de verdad queremos una web de papel cebolla?

Que más del 50 % de los artículos nuevos sean generados por IA no condena Internet… pero sí desnuda sus incentivos. Si pagamos por cantidad, obtendremos cantidad. Si clasificamos por palabras, nos ahogaremos en palabras. La alternativa no es nostalgia, es subir el listón: procedencia verificable, utilidad demostrable y creatividad con raíces en la realidad.

El reto no es “parar” la inteligencia artificial, es gobernarla. Y eso empieza por un acuerdo mínimo: más valor, menos ruido. El resto —reglas, estándares, ranking— vendrá porque los usuarios lo exigirán. O se irán a lugares donde la señal sea, otra vez, más fuerte que el eco.


Preguntas frecuentes

¿Cómo puedo saber si un texto está escrito por IA (y cuándo me equivocaré)?
Los detectores sirven como señal, no como veredicto. Fallan con textos editados, traducidos o híbridos. Combínalos con marcado de procedencia (p. ej., C2PA), metadatos de autoría y revisión y —sobre todo— pruebas (fuentes, documentos, métodos). Lo que puede comprobarse importa más que “quién lo tecleó”.

¿Tiene sentido seguir publicando mucho si la IA puede producir más y más barato?
El volumen genérico tiene cada vez menos retorno. En cambio, ganan páginas pilar vivas, datos propios, herramientas y contenido con propósito (resolver una tarea real). En asistentes y buscadores, la utilidad y la autoridad verificable pesarán más que el conteo de URLs.

¿Qué políticas internas debo adoptar si mi equipo usa IA?
Define casos permitidos, revisión humana obligatoria, criterios de calidad, marcado de procedencia, registro de cambios y plan de correcciones. En sectores sensibles (salud, finanzas, educación), añade doble validación y fuentes explícitas.

¿Cómo debería adaptarse la educación a esta realidad?
Menos policía de detectores y más diseño de evaluación: defensas orales, proyectos con trazabilidad, versionado y trabajos que obliguen a citar y contrastar. La alfabetización digital ahora incluye saber usar IA y saber desconfiar con método.

vía: seocretos

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Lo último

×