MIT esta semana presentó un nuevo modelo para entrenar robots. En lugar del conjunto estándar de datos enfocados que se utiliza para enseñar a los robots nuevas tareas, el método va a lo grande, imitando los enormes tesoros de información utilizados para entrenar grandes modelos de lenguaje (LLM).
Los investigadores señalan que el aprendizaje por imitación (en el que el agente aprende siguiendo a un individuo que realiza una tarea) puede fallar cuando se introducen pequeños desafíos. Podrían ser cosas como iluminación, un entorno diferente o nuevos obstáculos. En esos escenarios, los robots simplemente no tienen suficientes datos a los que recurrir para adaptarse.
El equipo buscó modelos como GPT-4 en busca de una especie de enfoque de datos de fuerza bruta para la resolución de problemas.
“En el dominio del lenguaje, todos los datos son sólo oraciones”, dice Lirui Wang, autor principal del nuevo artículo. “En robótica, dada toda la heterogeneidad de los datos, si queremos realizar un entrenamiento previo de manera similar, necesitamos una arquitectura diferente”.
El equipo introdujo una nueva arquitectura llamada Transformadores heterogéneos preentrenados (HPT), que reúne información de diferentes sensores y diferentes entornos. Luego se utilizó un transformador para reunir los datos en modelos de entrenamiento. Cuanto mayor sea el transformador, mejor será la salida.
Luego, los usuarios ingresan el diseño, la configuración y el trabajo del robot que desean realizar.
“Nuestro sueño es tener un cerebro de robot universal que puedas descargar y usar para tu robot sin ningún tipo de entrenamiento”, dijo el profesor asociado de CMU, David Held, sobre la investigación. “Aunque estamos apenas en las primeras etapas, vamos a seguir presionando con fuerza y esperamos que la ampliación conduzca a un gran avance en las políticas robóticas, como ocurrió con los modelos de lenguajes grandes”.
La investigación fue fundada, en parte, por el Toyota Research Institute. El año pasado en TechCrunch Disrupt, El TRI presentó un método para entrenar robots de la noche a la mañana. Más recientemente, logró una alianza decisiva que une su investigación sobre aprendizaje de robots con el hardware de Boston Dynamics.