Un estudio de Apple revela las limitaciones cognitivas de los LLMs más avanzados
¿La inteligencia artificial está más cerca de la inteligencia humana o solo es una experta en imitar? Un reciente y contundente estudio publicado por Apple bajo el título “The Illusion of Thinking” (“La ilusión de pensar”) ha puesto el foco en una de las preguntas clave de la tecnología actual: ¿realmente razonan los modelos de IA generativa o simplemente simulan hacerlo?
El análisis, liderado por investigadores de Apple, ha puesto a prueba a algunos de los modelos de lenguaje más avanzados del momento —incluyendo Claude, DeepSeek-R1 y o3-mini— a través de una serie de experimentos con puzzles lógicos clásicos, como la Torre de Hanói y el problema del río. Los resultados, lejos de confirmar la promesa de una inteligencia artificial capaz de “pensar”, señalan todo lo contrario: estos modelos, por complejos que sean, no resuelven problemas ni razonan, sino que se limitan a predecir palabras y a imitar patrones vistos durante su entrenamiento.

Más datos, más potencia… ¿mejor razonamiento? No siempre
El estudio de Apple se aleja de los típicos benchmarks matemáticos y de codificación que dominan las pruebas de IA, y opta por entornos de lógica controlada. Así se evita que los modelos hayan visto antes los problemas (data contamination) y se evalúa realmente su capacidad de razonamiento frente a situaciones nuevas. La clave: a medida que la complejidad de los puzzles aumenta, los modelos no solo fallan más, sino que “piensan menos”, dedicando menos tokens y menos pasos a buscar una solución, justo lo opuesto a la reacción de una persona ante un reto difícil.
Ni siquiera proporcionarles el algoritmo correcto paso a paso —como si se tratara de darles la receta de un pastel— mejora la situación: los modelos tampoco logran seguir instrucciones complejas de forma consistente.
El equipo identificó tres fases en el desempeño de la IA:
- Baja complejidad: Los modelos clásicos, incluso, superan a los llamados “modelos de razonamiento”.
- Complejidad media: Los modelos con razonamiento muestran una ligera ventaja.
- Alta complejidad: Todos los modelos colapsan y dejan de funcionar correctamente.
¿Por qué ocurre este fenómeno?
El problema está en la raíz del funcionamiento de los LLMs: no tienen conciencia de error, no comparan su progreso ni corrigen su estrategia. Solo generan la siguiente palabra de la secuencia, guiados por lo que “parece” coherente. Cuando los patrones que han memorizado dejan de servir, la IA no busca nuevas soluciones ni incrementa su esfuerzo, simplemente “improvisa” y falla, a menudo reduciendo la cantidad de razonamiento, como si se rindiera sin avisar.
De hecho, el propio estudio revela que estos modelos pueden resolver la Torre de Hanói con más de 100 movimientos (posiblemente porque han memorizado ese tipo de ejemplos durante su entrenamiento), pero fallan en problemas lógicos distintos —como el clásico cruce del río— tras solo 4 movimientos, una señal clara de que no hay razonamiento generalizable.
Implicaciones para el futuro de la IA
Los resultados publicados por Apple son una llamada de atención al sector tecnológico, especialmente en un momento donde el hype por la “IA que razona” está en máximos. El estudio desmonta la idea de que simplemente aumentando el tamaño del modelo, los datos o la potencia computacional, las máquinas terminarán por “aprender a pensar”. Por ahora, lo que hacen es simular razonamiento, pero no entienden, no planifican, ni evalúan su progreso.
Esto no significa que los LLMs sean inútiles, pero sí obliga a matizar las expectativas y a tener mucho cuidado al delegar en estas IA tareas críticas o de alto riesgo. El verdadero peligro, advierte el informe, es que suenen tan convincentes que acabemos creyendo que comprenden y razonan como humanos, cuando en realidad solo están adivinando la próxima palabra.
¿Qué sigue?
El reto ahora es doble: desarrollar mejores evaluaciones para distinguir la imitación del razonamiento genuino, y buscar enfoques técnicos que realmente permitan dotar a la IA de capacidades de razonamiento flexibles y generales, no solo de imitación sofisticada.
Mientras tanto, la próxima vez que un chatbot prometa “pensar en voz alta” o te diga “déjame pensar”, no olvides que lo suyo es más teatro que pensamiento real.
Referencia:
Shojaee, P., Mirzadeh, I., Alizadeh, K., Horton, M., Bengio, S., & Farajtabar, M. (2024). The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity. Apple Research.
(Puedes consultar el paper completo en: [the-illusion-of-thinking.pdf])