Investigadores del MIT, Technion y la Universidad de Northeastern han lanzado una advertencia sobre los peligros de confiar demasiado en herramientas automáticas de análisis de inteligencia artificial (IA) que prometen despejar los misterios de otros sistemas de IA. En un nuevo estudio titulado «Pitfalls in Evaluating Interpretability Agents», se examinan críticamente los métodos utilizados para evaluar herramientas diseñadas para la interpretabilidad mecánica, es decir, aquellas que permiten analizar redes neuronales y comprender cómo sus componentes influyen en el comportamiento general del modelo.

El equipo de investigación desarrolló un sistema avanzado impulsado por Claude Opus 4.1, que emula el trabajo de un investigador humano. A diferencia de un programa rígido, este agente aprende de manera iterativa, formulando hipótesis sobre el comportamiento del modelo, diseñando y ejecutando pruebas, y generando explicaciones que parecen coincidir con investigaciones realizadas por expertos humanos. Durante las pruebas, el agente demostró ser competitivo al identificar correctamente qué componentes eran responsables de distintos comportamientos en tareas de análisis de circuitos.

No obstante, un hallazgo sorprendente fue que Claude Opus 4.1 había memorizado aspectos de la investigación que debía replicar de manera independiente. Cuando se le solicitaba, podía recitar información detallada sobre tareas específicas, lo cual plantea dudas sobre su capacidad para hacer razonamientos genuinos versus simplemente recuperar información almacenada. Esto suscita una inquietante pregunta: si el sistema ya ha visto las respuestas, ¿cómo se puede saber si realmente está analizando el problema o simplemente recordando lo que ha aprendido?

Otro aspecto revelador del estudio es que, aunque las explicaciones dadas por expertos humanos a menudo se consideran como referencia, no siempre son confiables. El agente de IA a veces contradijo hallazgos publicados y, tras un análisis adicional, se descubrió que sus afirmaciones eran correctas. Esto indica que los expertos pueden no tener la última palabra en cuanto al funcionamiento interno de los sistemas de IA, y que las etiquetas y clasificaciones que establecen pueden estar sujetas a errores y subjetividades.

Los investigadores critican el enfoque actual de evaluación que se centra en si los sistemas de IA llegan a las mismas conclusiones que los investigadores humanos, subestimando la importancia del proceso científico. Propusieron una nueva metodología de evaluación basada en la intercambiabilidad funcional, donde se mide cómo cambia el comportamiento del modelo al intercambiar componentes sin supervisión previa. Esta técnica, aunque no es perfecta, representa un avance hacia métodos de evaluación más sólidos que no dependan completamente del juicio humano.

Estos hallazgos llegan en un momento crucial para la seguridad y la transparencia de la IA. Con modelos cada vez más poderosos y autónomos, la necesidad de comprender su funcionamiento se hace más urgente. Sin embargo, el estudio sugiere que nuestras herramientas para entender estos sistemas, y especialmente nuestros métodos para evaluar esas herramientas, requieren una revisión sustancial. A medida que la IA asuma roles científicos más abiertos y complejos, es esencial establecer evaluaciones confiables que no solo verifiquen los resultados correctos, sino que también iluminen el proceso que lleva a esos resultados.

Lo último

×