¿Qué son los 'modelos mundiales' de IA y por qué son importantes?

Algunos promocionan los modelos mundiales, también conocidos como simuladores mundiales, como la próxima gran novedad en IA.

El pionero de la IA Fei-Fei Li Laboratorios mundiales ha recaudado 230 millones de dólares para construir “grandes modelos mundiales” y DeepMind contratado uno de los creadores del generador de videos de OpenAI, sorapara trabajar en “simuladores de mundos”.

Pero que diablos son estas cosas?

Los modelos del mundo se inspiran en los modelos mentales del mundo que los humanos desarrollan de forma natural. Nuestros cerebros toman las representaciones abstractas de nuestros sentidos y las transforman en una comprensión más concreta del mundo que nos rodea, produciendo lo que llamamos “modelos” mucho antes de que la IA adoptara la frase. Las predicciones que hace nuestro cerebro basándose en estos modelos influyen en cómo percibimos el mundo.

A papel Los investigadores de IA David Ha y Jurgen Schmidhuber dan el ejemplo de un bateador de béisbol. Los bateadores tienen milisegundos para decidir cómo batear, menos que el tiempo que tardan las señales visuales en llegar al cerebro. La razón por la que son capaces de batear una bola rápida a 100 millas por hora es porque pueden predecir instintivamente hacia dónde irá la bola, dicen Ha y Schmidhuber.

“Para los jugadores profesionales, todo esto sucede de forma inconsciente”, escribe el dúo de investigadores. “Sus músculos mueven el bate de forma refleja en el momento y lugar correctos, de acuerdo con las predicciones de sus modelos internos. Pueden actuar rápidamente según sus predicciones del futuro sin la necesidad de implementar conscientemente posibles escenarios futuros para formar un plan”.

Son estos aspectos de razonamiento subconsciente de los modelos mundiales los que algunos creen que son requisitos previos para la inteligencia a nivel humano.

Modelando el mundo

Si bien el concepto existe desde hace décadas, los modelos mundiales han ganado popularidad recientemente en parte debido a sus prometedoras aplicaciones en el campo del vídeo generativo.

La mayoría, si no todos, los videos generados por IA se desvían hacia el territorio del valle inquietante. Míralos el tiempo suficiente y algo extraño sucederá, como miembros retorciéndose y fusionándose entre sí.

Si bien un modelo generativo entrenado con años de video podría predecir con precisión que una pelota de baloncesto rebota, en realidad no tiene idea de por qué, al igual que los modelos de lenguaje no comprenden realmente los conceptos detrás de las palabras y frases. Pero un modelo mundial que tenga incluso una comprensión básica de por qué la pelota de baloncesto rebota como lo hace será mejor para demostrar que hace eso.

Para permitir este tipo de conocimiento, los modelos del mundo se entrenan con una variedad de datos, incluidos fotografías, audio, videos y texto, con la intención de crear representaciones internas de cómo funciona el mundo y la capacidad de razonar sobre las consecuencias de las acciones. .

Una muestra del modelo de generación de video Gen-3 de la startup de IA Runway. Créditos de imagen:Pista

“Un espectador espera que el mundo que está viendo se comporte de manera similar a su realidad”, dijo Mashrabov. “Si una pluma cae con el peso de un yunque o una bola de bolos se dispara cientos de pies en el aire, es impactante y saca al espectador del momento. Con un modelo mundial sólido, en lugar de que un creador defina cómo se espera que se mueva cada objeto (lo cual es tedioso, engorroso y supone un mal uso del tiempo), el modelo entenderá esto”.

Pero una mejor generación de vídeo es sólo la punta del iceberg para los modelos mundiales. Los investigadores, incluido el científico jefe de IA de Meta, Yann LeCun, dicen que los modelos algún día podrían usarse para pronósticos y planificación sofisticados tanto en el ámbito digital como físico.

en un hablar A principios de este año, LeCun describió cómo un modelo mundial podría ayudar a lograr un objetivo deseado mediante el razonamiento. Un modelo con una representación básica de un “mundo” (por ejemplo, un vídeo de una habitación sucia), dado un objetivo (una habitación limpia), podría idear una secuencia de acciones para lograr ese objetivo (desplegar aspiradoras para barrer, limpiar el platos, vaciar la basura) no porque sea un patrón que haya observado sino porque sabe en un nivel más profundo cómo pasar de lo sucio a lo limpio.

“Necesitamos máquinas que comprendan el mundo; (Máquinas) que pueden recordar cosas, que tienen intuición, sentido común, cosas que pueden razonar y planificar al mismo nivel que los humanos”, dijo LeCun. “A pesar de lo que hayas escuchado de algunas de las personas más entusiastas, los sistemas de inteligencia artificial actuales no son capaces de hacer nada de esto”.

Si bien LeCun estima que estamos al menos a una década de los modelos mundiales que imagina, los modelos mundiales actuales se muestran prometedores como simuladores de física elemental.

OpenAI Sora Minecraft
Sora controla a un jugador en Minecraft y representa el mundo. Créditos de imagen:Abierto AI

OpenAI señala en un blog que Sora, al que considera un modelo mundial, puede simular acciones como un pintor que deja pinceladas sobre un lienzo. Modelos como Sora… y Sora sí mismo — también puede efectivamente simular video juegos. Por ejemplo, Sora puede representar una interfaz de usuario y un mundo de juegos similares a Minecraft.

Los modelos mundiales futuros pueden generar mundos 3D a pedido para juegos, fotografía virtual y más, dijo el cofundador de World Labs, Justin Johnson, en un episodio del podcast a16z.

“Ya tenemos la capacidad de crear mundos virtuales e interactivos, pero cuesta cientos y cientos de millones de dólares y mucho tiempo de desarrollo”, dijo Johnson. “(Los modelos mundiales) le permitirán no sólo obtener una imagen o un clip, sino también un mundo 3D totalmente simulado, vibrante e interactivo”.

Altos obstáculos

Si bien el concepto es atractivo, muchos desafíos técnicos se interponen en el camino.

Entrenar y ejecutar modelos mundiales requiere una enorme potencia informática, incluso en comparación con la cantidad que utilizan actualmente los modelos generativos. Si bien algunos de los últimos modelos de lenguaje pueden ejecutarse en un teléfono inteligente moderno, Sora (posiblemente uno de los primeros modelos mundiales) requeriría miles de GPU para entrenarse y ejecutarse, especialmente si su uso se vuelve común.

Los modelos mundiales, como todos los modelos de IA, también alucinar – e internalizar los sesgos en sus datos de entrenamiento. Un modelo mundial formado en gran medida con vídeos del clima soleado en ciudades europeas podría tener dificultades para comprender o representar ciudades coreanas en condiciones de nieve, por ejemplo, o simplemente hacerlo incorrectamente.

La falta general de datos sobre formación amenaza con exacerbar estos problemas, afirma Mashrabov.

“Hemos visto modelos realmente limitados con generaciones de personas de cierto tipo o raza”, dijo. “Los datos de entrenamiento para un modelo mundial deben ser lo suficientemente amplios como para cubrir un conjunto diverso de escenarios, pero también muy específicos en cuanto a dónde la IA puede comprender profundamente los matices de esos escenarios”.

En un reciente correoCristóbal Valenzuela, director general de la startup de IA Runway, afirma que los problemas de datos e ingeniería impiden que los modelos actuales capturen con precisión el comportamiento de los habitantes de un mundo (por ejemplo, humanos y animales). “Los modelos necesitarán generar mapas consistentes del entorno”, dijo, “y la capacidad de navegar e interactuar en esos entornos”.

OpenAI Sora
Un vídeo generado por Sora. Créditos de imagen:Abierto AI

Sin embargo, si se superan todos los obstáculos principales, Mashrabov cree que los modelos mundiales podrían unir “más sólidamente” la IA con el mundo real, lo que conduciría a avances no sólo en la generación de mundos virtuales sino también en la robótica y la toma de decisiones de la IA.

También podrían generar robots más capaces.

Los robots de hoy están limitados en lo que pueden hacer porque no tienen conciencia del mundo que los rodea (o de sus propios cuerpos). Los modelos mundiales podrían darles esa conciencia, dijo Mashrabov, al menos hasta cierto punto.

“Con un modelo mundial avanzado, una IA podría desarrollar una comprensión personal de cualquier escenario en el que se encuentre”, dijo, “y comenzar a razonar posibles soluciones”.

Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here