Los modelos TTT podrían ser la próxima frontera en la IA generativa

Después de años de dominio Por la forma de IA conocida como el transformador.la búsqueda de nuevas arquitecturas está en marcha.

Los transformadores sustentan Modelo de generación de vídeo Sora de OpenAIy están en el corazón de los modelos de generación de texto como Claude de Anthropic, Géminis de Google y GPT-4o. Pero están empezando a toparse con obstáculos técnicos, en particular, obstáculos relacionados con la computación.

Los transformadores no son especialmente eficientes para procesar y analizar grandes cantidades de datos, al menos si se ejecutan en hardware comercial. Y eso está generando costos elevados y quizás insostenible aumenta la demanda de energía a medida que las empresas construyen y amplían la infraestructura para satisfacer los requisitos de los transformadores.

Una arquitectura prometedora propuesta este mes es Entrenamiento en tiempo de prueba (TTT)que fue desarrollado a lo largo de un año y medio por investigadores de Stanford, UC San Diego, UC Berkeley y Meta. El equipo de investigación afirma que los modelos TTT no solo pueden procesar muchos más datos que los transformadores, sino que pueden hacerlo sin consumir casi tanta potencia de procesamiento.

El estado oculto en los transformadores

Un componente fundamental de los transformadores es el “estado oculto”, que es esencialmente una larga lista de datos. A medida que un transformador procesa algo, agrega entradas al estado oculto para “recordar” lo que acaba de procesar. Por ejemplo, si el modelo está leyendo un libro, los valores del estado oculto serán cosas como representaciones de palabras (o partes de palabras).

“Si consideramos a un transformador como una entidad inteligente, entonces la tabla de búsqueda (su estado oculto) es el cerebro del transformador”, explicó a TechCrunch Yu Sun, investigador posdoctoral en Stanford y coautor de la investigación sobre TTT. “Este cerebro especializado permite las conocidas capacidades de los transformadores, como el aprendizaje en contexto”.

El estado oculto es parte de lo que hace que los transformadores sean tan poderosos, pero también los limita. Para “decir” una sola palabra sobre un libro que un transformador acaba de leer, el modelo tendría que recorrer toda su tabla de búsqueda, una tarea tan exigente computacionalmente como releer el libro entero.

Entonces, Sun y su equipo tuvieron la idea de reemplazar el estado oculto con un modelo de aprendizaje automático, como muñecas anidadas de IA, por así decirlo, un modelo dentro de un modelo.

Es un poco técnico, pero la esencia es que el modelo de aprendizaje automático interno del modelo TTT, a diferencia de la tabla de búsqueda de un transformador, no crece y crece a medida que procesa datos adicionales. En cambio, codifica los datos que procesa en variables representativas llamadas ponderaciones, que es lo que hace que los modelos TTT sean altamente eficientes. No importa cuántos datos procese un modelo TTT, el tamaño de su modelo interno no cambiará.

Sun cree que los futuros modelos TTT podrían procesar de manera eficiente miles de millones de datos, desde palabras hasta imágenes, grabaciones de audio y videos. Eso está muy por encima de las capacidades de los modelos actuales.

“Nuestro sistema puede decir X palabras sobre un libro sin la complejidad computacional de releer el libro X veces”, dijo Sun. “Los modelos de video grandes basados ​​en transformadores, como Sora, solo pueden procesar 10 segundos de video, porque solo tienen un 'cerebro' de tabla de búsqueda. Nuestro objetivo final es desarrollar un sistema que pueda procesar un video largo que se asemeje a la experiencia visual de una vida humana”.

Escepticismo en torno a los modelos TTT

¿Acaso los modelos TTT acabarán sustituyendo a los transformadores? Podrían hacerlo, pero es demasiado pronto para afirmarlo con certeza.

Los modelos TTT no son un reemplazo directo de los transformadores. Y los investigadores solo desarrollaron dos modelos pequeños para el estudio, lo que hace que el TTT como método sea difícil de comparar en este momento con algunas de las implementaciones de transformadores más grandes que existen.

“Creo que es una innovación perfectamente interesante, y si los datos respaldan las afirmaciones de que proporciona ganancias de eficiencia, entonces es una gran noticia, pero no podría decir si es mejor que las arquitecturas existentes o no”, dijo Mike Cook, profesor titular del departamento de informática del King's College de Londres que no participó en la investigación de TTT. “Un antiguo profesor mío solía contar un chiste cuando yo era estudiante: ¿Cómo se resuelve cualquier problema en informática? Añadiendo otra capa de abstracción. Añadir una red neuronal dentro de una red neuronal definitivamente me recuerda a eso”.

De todos modos, el ritmo acelerado de la investigación sobre alternativas a los transformadores apunta a un creciente reconocimiento de la necesidad de un avance revolucionario.

Esta semana, la startup de inteligencia artificial Mistral lanzó un modelo, Codestral Mamba, que se basa en otra alternativa al transformador llamado modelos de espacio de estados (SSM)Los SSM, al igual que los modelos TTT, parecen ser computacionalmente más eficientes que los transformadores y pueden escalar hasta cantidades mayores de datos.

AI21 Labs también está explorando los SSM. Cartesiaque fue pionero en algunos de los primeros SSM y homónimos de Codestral Mamba, Mamba y Mamba-2.

Si estos esfuerzos tienen éxito, podrían hacer que la IA generativa sea aún más accesible y extendida de lo que es ahora, por ejemplo: mejor o peor.

Fuente