Tecnología y sociedad

La ilusión del razonamiento: cuando la inteligencia artificial parece pensar, pero no lo hace

Un estudio descubre los límites y paradojas de los modelos de IA que prometen razonar como humanos

La IA dice que piensa, pero en realidad no llega: colapsa cuando el razonamiento es complejo.

La IA dice que piensa, pero en realidad no llega: colapsa cuando el razonamiento es complejo. / ChatGPT/T21

EDUARDO MARTÍNEZ DE LA FE/T21

EDUARDO MARTÍNEZ DE LA FE/T21

Madrid

Aunque los nuevos modelos de lenguaje presumen de cadenas de razonamiento y soluciones detalladas, un estudio revela que su aparente pensamiento es, en muchos casos, una sofisticada ilusión: estos sistemas colapsan ante la complejidad, evidenciando que estamos confundiendo el reconocimiento de patrones con el auténtico razonamiento.

En los últimos años, la inteligencia artificial ha dado pasos de gigante gracias a los llamados “modelos de lenguaje de gran tamaño” (LLMs), capaces de generar textos, resolver problemas y, en apariencia, razonar. Pero ¿hasta qué punto estos sistemas piensan de verdad? Un grupo de investigadores se propuso responder a esta pregunta analizando los llamados Large Reasoning Models (LRMs), una nueva generación de modelos diseñados específicamente para tareas de razonamiento, como Claude 3.7 Sonnet Thinking o DeepSeek-R11.

La principal diferencia de estos modelos respecto a los LLMs tradicionales es que los LRMs son capaces de desplegar cadenas de pensamiento: antes de dar una respuesta, generan una secuencia de pasos intermedios, como si “pensaran en voz alta”. Esto ha llevado a muchos a pensar que la IA está cada vez más cerca de razonar como un humano.

Sin embargo, un nuevo estudio desmonta parte de este mito. Los investigadores diseñaron una serie de experimentos con puzzles y juegos de lógica —como la Torre de Hanoi, el River Crossing o el Blocks World— para analizar cómo enfrentan los modelos problemas de complejidad creciente.

Tres fases ante la dificultad

El análisis reveló que, a medida que la dificultad de los problemas aumenta, los modelos atraviesan tres fases muy claras: en problemas sencillos, los modelos tradicionales (sin cadenas de pensamiento) son más rápidos y precisos que los LRMs, que tienden a “sobrepensar”, explorando alternativas innecesarias.

Cuando la dificultad es media, los LRMs muestran su ventaja: sus cadenas de razonamiento les permiten resolver problemas que los modelos simples ya no pueden abordar. Sin embargo, cuando la complejidad es alta, ambos tipos de modelos colapsan: dejan de encontrar soluciones correctas y, paradójicamente, los LRMs empiezan a reducir su esfuerzo de razonamiento, aunque podrían seguir “pensando” más tiempo.

Este fenómeno sugiere que, lejos de escalar su capacidad de razonamiento con la dificultad, los modelos actuales se rinden antes de agotar sus recursos computacionales.

¿Por qué ocurre este colapso?

El estudio fue más allá y analizó los “rastros de pensamiento” generados por los LRMs. En problemas fáciles, suelen encontrar la solución correcta al principio, pero luego continúan explorando caminos erróneos, malgastando recursos. En los de dificultad media, la respuesta correcta aparece tras muchos intentos fallidos. Y en los más difíciles, no logran encontrar ninguna solución válida. Esto muestra que, aunque los modelos han aprendido a auto-verificarse y a corregirse, su capacidad de autocorrección es limitada y no mejora con la dificultad.

Además, los investigadores comprobaron que, incluso si se les proporciona el algoritmo exacto para resolver un puzzle (por ejemplo, la receta paso a paso para la Torre de Hanoi), los modelos siguen fallando en los mismos puntos que cuando tienen que descubrir la solución por sí mismos. Esto indica que su principal limitación no es tanto descubrir la estrategia, sino ejecutar correctamente una secuencia lógica de pasos.

¿Simulan el pensamiento o solo reconocen patrones?

Estos resultados se suman a otros estudios que advierten sobre la tendencia de la IA a apoyarse en patrones superficiales en vez de una comprensión profunda. Cuando se enfrenta a problemas nuevos o con variaciones, el rendimiento de la IA cae en picado, lo que sugiere que su razonamiento es mucho menos flexible y adaptable que el humano. En palabras de los propios autores, los LRMs no desarrollan capacidades generalizables de resolución de problemas: su “pensar” es, en gran medida, una ilusión convincente, pero no una muestra de comprensión real.

Estos hallazgos son una llamada de atención para quienes ven en la IA una sustituta del razonamiento humano. Si bien los LRMs representan un avance en tareas de dificultad media, siguen enfrentando barreras fundamentales ante problemas complejos. La investigación apunta a la necesidad de repensar cómo evaluamos y desarrollamos estos modelos, buscando no solo precisión en la respuesta final, sino también robustez y comprensión genuina de los procesos de razonamiento.

En resumen, aunque la IA puede simular el pensamiento, aún está lejos de replicar la flexibilidad, profundidad y creatividad del razonamiento humano, según este documentado estudio. La ilusión del pensamiento sigue siendo, por ahora, eso: una ilusión.

Tracking Pixel Contents