Los investigadores cuestionan la capacidad de “razonamiento” de la IA mientras los modelos tropiezan con problemas matemáticos con cambios triviales

¿Cómo hacen los modelos de aprendizaje automático lo que hacen? ¿Y realmente “piensan” o “razonan” de la forma en que entendemos esas cosas? Esta es una pregunta tanto filosófica como práctica, pero un nuevo artículo que circula el viernes sugiere que la respuesta es, al menos por ahora, un “no” bastante claro.

Un grupo de científicos investigadores de IA en Apple liberado su artículo, “Comprender las limitaciones del razonamiento matemático en modelos de lenguaje grandes”, al comentario general del jueves. Si bien los conceptos más profundos de aprendizaje simbólico y reproducción de patrones están un poco en la maleza, el concepto básico de su investigación es muy fácil de comprender.

Digamos que te pedí que resolvieras un problema matemático simple como este:

Oliver recoge 44 kiwis el viernes. Luego recoge 58 kiwis el sábado. El domingo, recoge el doble de kiwis que el viernes. ¿Cuántos kiwis tiene Oliver?

Obviamente, la respuesta es 44 + 58 + (44 * 2) = 190. Aunque Los modelos de lenguaje grandes en realidad son irregulares en aritmética.pueden resolver algo como esto de manera bastante confiable. Pero, ¿qué pasaría si agrego un poco de información adicional aleatoria, como esta?

Oliver recoge 44 kiwis el viernes. Luego recoge 58 kiwis el sábado. El domingo recoge el doble de kiwis que el viernes, pero cinco de ellos eran un poco más pequeños que el promedio. ¿Cuántos kiwis tiene Oliver?

Es el mismo problema de matemáticas, ¿verdad? Y, por supuesto, incluso un niño de primaria sabría que incluso un kiwi pequeño sigue siendo un kiwi. Pero resulta que este dato adicional confunde incluso a los LLM más avanzados. Aquí está la opinión de GPT-o1-mini:

… el domingo, 5 de estos kiwis eran más pequeños que la media. Necesitamos restarlos del total del domingo: 88 (kiwis del domingo) – 5 (kiwis más pequeños) = 83 kiwis

Este es sólo un ejemplo simple de cientos de preguntas que los investigadores modificaron ligeramente, pero que casi todas llevaron a enormes caídas en las tasas de éxito de los modelos que las intentaron.

Créditos de imagen:Mirzadeh y otros

Ahora bien, ¿por qué debería ser esto? ¿Por qué un modelo que entiende el problema sería desechado tan fácilmente por un detalle aleatorio e irrelevante? Los investigadores proponen que este modo confiable de falla significa que los modelos realmente no comprenden el problema en absoluto. Sus datos de entrenamiento les permiten responder con la respuesta correcta en algunas situaciones, pero tan pronto como se requiere el más mínimo “razonamiento” real, como por ejemplo contar kiwis pequeños, comienzan a producir resultados extraños y poco intuitivos.

Como lo expresaron los investigadores en su artículo:

(Investigamos la fragilidad del razonamiento matemático en estos modelos y demostramos que su desempeño se deteriora significativamente a medida que aumenta el número de cláusulas en una pregunta. Nuestra hipótesis es que esta disminución se debe al hecho de que los LLM actuales no son capaces de realizar un razonamiento lógico genuino; en cambio, intentan replicar los pasos de razonamiento observados en sus datos de entrenamiento.

Esta observación es consistente con otras cualidades que a menudo se atribuyen a los LLM debido a su facilidad con el lenguaje. Cuando, estadísticamente, la frase “Te amo” va seguida de “Yo también te amo”, el LLM puede repetirlo fácilmente, pero eso no significa que te ame. Y aunque puede seguir complejas cadenas de razonamiento a las que ha estado expuesto antes, el hecho de que esta cadena pueda romperse incluso con desviaciones superficiales sugiere que en realidad no razona sino que replica patrones que ha observado en sus datos de entrenamiento.

Mehrdad Farajtabar, uno de los coautores, analiza muy bien el documento en este hilo en X.

Un investigador de OpenAI, aunque elogia el trabajo de Mirzadeh et al, objetó sus conclusionesdiciendo que probablemente se podrían lograr resultados correctos en todos estos casos de falla con un poco de ingeniería rápida. Farajtabar (respondiendo con la típica pero admirable amabilidad que los investigadores tienden a emplear) señaló que si bien unas mejores indicaciones pueden funcionar para desviaciones simples, el modelo puede requerir exponencialmente más datos contextuales para contrarrestar distracciones complejas, que, nuevamente, un niño podría señalar trivialmente. afuera.

¿Significa esto que los LLM no razonan? Tal vez. ¿Que no pueden razonar? Nadie lo sabe. Estos no son conceptos bien definidos y las preguntas tienden a aparecer en la vanguardia de la investigación de la IA, donde el estado del arte cambia a diario. Quizás los LLM “razonan”, pero de una manera que todavía no reconocemos o no sabemos cómo controlar.

Se trata de una frontera fascinante en la investigación, pero también es una advertencia cuando se trata de cómo se vende la IA. ¿Puede realmente hacer las cosas que afirman y, si lo hace, cómo? A medida que la IA se convierte en una herramienta de software cotidiana, este tipo de preguntas ya no son académicas.

Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here