Durante años, el anonimato en internet ha sido más un pacto tácito que una garantía técnica. Millones de usuarios han confiado en que un seudónimo persistente, una cuenta secundaria o un throwaway en Reddit bastaban para separar su vida pública de la privada. Sin embargo, una investigación académica reciente sugiere que esa “oscuridad práctica” —la idea de que nadie va a dedicar tiempo a investigarte— se está debilitando a gran velocidad gracias a los modelos de lenguaje de gran tamaño.
El trabajo, elaborado por investigadores vinculados a ETH Zurich, Anthropic y MATS, describe cómo la Inteligencia Artificial puede automatizar la desanonimización a escala: agrupar publicaciones dispersas, inferir señales de identidad a partir del estilo, intereses y microdetalles, y terminar conectando un perfil seudónimo con una identidad real o con otras cuentas del mismo usuario. Todo ello con un coste que, según los autores, puede rondar entre 1 y 4 dólares por objetivo en su configuración experimental.
Lo preocupante no es la “magia”, es el precio de la correlación
La desanonimización no es nueva. La historia de la privacidad digital está llena de ejemplos en los que, con suficientes datos, se puede identificar a alguien aunque su nombre no aparezca. Lo que cambia ahora es el umbral de esfuerzo. Los investigadores argumentan que los modelos de lenguaje hacen viable, rápida y “barata” una tarea que antes requería especialistas y muchas horas: leer cientos de mensajes, detectar patrones, buscar referencias cruzadas y validar hipótesis.
En otras palabras, no se trata solo de que una persona pueda ser identificable. Se trata de que un proceso que antes se reservaba a objetivos de alto valor pueda convertirse en rutina. Y eso afecta directamente al ecosistema de redes sociales, donde la seudonimia y las identidades paralelas son parte del día a día: desde usuarios que participan en comunidades sensibles hasta trabajadores que comentan en foros profesionales, pasando por creadores que separan su marca personal de su vida privada.
Resultados: cuando el sistema “se abstiene”, acierta más
Para evitar daños directos, el estudio no se dedica a “cazar” cuentas realmente anónimas al azar. En su lugar, construye conjuntos con verdad de referencia: perfiles donde la identidad estaba verificada por enlaces públicos (por ejemplo, un usuario que enlaza su LinkedIn en la bio) o datos anonimizados de forma controlada para evaluar si un sistema puede recuperar el vínculo eliminado.
En uno de sus experimentos más citados, los autores recopilan 338 usuarios de Hacker News que habían enlazado un perfil de LinkedIn en su biografía (identidad real verificada por ese enlace). Su agente logra identificar correctamente a 226 de esos 338 objetivos: un 67 % de recall con un 90 % de precisión. También reportan abstenciones: el sistema, cuando no está suficientemente seguro, prefiere no dar un “veredicto”. Ese comportamiento es clave, porque reduce falsos positivos y hace que, cuando el sistema “apunta”, sea más probable que acierte.
El artículo también aborda escenarios con Reddit, donde los resultados varían en función de lo distintivo que sea el contenido. En comunidades temáticas con señales muy específicas, la correlación se vuelve más viable; cuando el lenguaje y los gustos son más “genéricos”, el vínculo es más difícil. Aun así, el mensaje central se mantiene: la IA permite convertir pistas pequeñas en un perfil robusto cuando hay suficiente historial.
Uno de los puntos más delicados llega con el análisis de transcripciones “anonimizadas”. Los autores examinan el caso del Anthropic Interviewer dataset, entrevistas sobre el uso de Inteligencia Artificial en investigación que habían sido parcialmente redactadas para proteger a los participantes. En una muestra de 33 científicos, el agente identifica correctamente a 9 con una precisión del 82 % (con errores y numerosas abstenciones), y los investigadores subrayan que la verificación total es compleja. Aun así, el episodio ilustra un problema que preocupa especialmente a periodistas, ONG, universidades y empresas: anonimizar texto no siempre implica eliminar la huella contextual.
De la cuenta secundaria al “grafo de identidades”
En medios y redes sociales, el riesgo no se limita a descubrir “quién es” alguien. También incluye algo más cotidiano: vincular cuentas entre sí. Muchas personas mantienen identidades separadas por razones legítimas: hablar de salud, denunciar abusos, tratar temas laborales, participar en comunidades LGTBIQ+, pedir ayuda psicológica, debatir política o simplemente mantener una vida digital compartimentada.
El estudio apunta a una realidad incómoda: cuanto más tiempo dura un alias, más material hay para perfilarlo. Horarios, expresiones recurrentes, intereses de nicho, referencias culturales, anécdotas, ciudades, herramientas de trabajo, detalles de carrera… Ninguno de estos elementos es necesariamente identificador por sí solo, pero juntos forman un patrón. Y la IA, precisamente, es buena encontrando patrones.
¿Y los “guardrails”? Los autores no son optimistas
El paper sostiene que los frenos clásicos —límites de uso, barreras de seguridad o reglas de moderación— pueden no ser suficientes para detener un abuso “modular”. La razón es que el proceso puede descomponerse en tareas que parecen benignas por separado: resumir textos, buscar similitudes semánticas, ordenar candidatos, comprobar coherencias. Los autores, de hecho, evitan publicar código, prompts o configuraciones específicas por motivos de prevención de abuso, y enfatizan consideraciones éticas y aprobación de revisión.
En paralelo, lanzan un aviso a plataformas y reguladores: si grandes volúmenes de datos públicos siguen siendo fácilmente indexables y explotables, el anonimato práctico se vuelve cada vez más frágil, incluso sin filtraciones y sin hackeos.
Qué cambia para usuarios, creadores y plataformas
Para el usuario medio, el giro más importante es mental: la pregunta ya no es “¿alguien va a molestarse?”, sino “¿cuánto cuesta molestarse?”. Cuando el coste baja, cambian los incentivos. Para creadores y profesionales con presencia pública, el riesgo se amplifica: opiniones antiguas en foros, comentarios en cuentas secundarias o publicaciones técnicas pueden convertirse en piezas de un puzle no deseado.
Para las plataformas, el debate es espinoso. Mantener datos públicos alimenta el descubrimiento y la conversación abierta, pero también facilita el scraping y la correlación. Y para las instituciones que publican datos anonimizados (transcripciones, testimonios, entrevistas), el estudio sugiere que el listón de la anonimización debe subir: no basta con borrar nombres si quedan suficientes señales contextuales.
En su sección de mitigaciones, los investigadores apuntan líneas generales: que los usuarios decidan mejor qué comparten, que las plataformas reconsideren qué exponen públicamente, que se desarrollen métricas y defensas más sólidas, y que la comunidad de seguridad trate la desanonimización con IA como una amenaza estructural, no como un caso excepcional.
Preguntas frecuentes (FAQ)
¿Puede la Inteligencia Artificial revelar quién está detrás de un seudónimo en redes sociales?
Sí: el estudio muestra que, con suficiente historial público, un sistema automatizado puede vincular perfiles seudónimos con identidades reales con alta precisión en algunos escenarios.
¿Qué significa “67 % de recall con 90 % de precisión” en desanonimización?
Que el sistema identifica correctamente a una parte relevante de los objetivos (recall) y que, cuando decide dar un resultado, suele acertar (precisión), absteniéndose cuando no está seguro.
¿Por qué un throwaway de Reddit puede ser “linkeable” con el tiempo?
Porque la acumulación de microdetalles (temas, estilo, hábitos, referencias) crea un patrón que la IA puede correlacionar con otros perfiles o identidades públicas.
¿Basta con borrar nombres para anonimizar transcripciones o testimonios?
No siempre: el estudio sugiere que el contexto y los detalles técnicos o biográficos pueden permitir reidentificación aunque los nombres y usuarios se hayan eliminado.
Fuente: ArXiV