Google entrena un modelo Gen-AI para simular el motor de juego de DOOM • The Register

Un equipo de Google y la Universidad de Tel Aviv han desarrollado un motor de juego de inteligencia artificial generativa capaz de simular el clásico de culto DOOM a más de 20 cuadros por segundo, según una investigación.

El trabajo, detallado en un artículo publicado (PDF) ayer, demuestra cómo se pueden utilizar los modelos de refuerzo y difusión para simular motores de juego en tiempo real.

El modelo, denominado GameNGen (que se pronuncia “motor de juego”), fue entrenado en DOOM, pero los investigadores señalan que nada del enfoque utilizado es específico de ese juego y podría aplicarse a cualquier cantidad de títulos.

Los motores de juegos tradicionales se codifican manualmente para seguir un ciclo establecido que rastrea las entradas del usuario, actualiza el estado del juego y muestra los píxeles en la pantalla. Si haces esto lo suficientemente rápido, crearás la ilusión de que te estás moviendo e interactuando con un entorno virtual.

Vídeo de Youtube

En comparación, GameNGen funciona de forma un poco diferente, ya que todo el motor del juego y los fotogramas se generan sobre la marcha en función de la acción del jugador y de los fotogramas anteriores. Para ello, se podría pensar que los investigadores extrajeron horas de metraje del juego de jugadores reales, pero según los investigadores, esto no era práctico.

En cambio, la primera fase del entrenamiento de GameNGen fue crear un agente de aprendizaje de refuerzo que aprendiera a jugar a DOOM. Los datos generados por estas sesiones de entrenamiento se utilizaron para entrenar un modelo de difusión personalizado basado en Stable Diffusion v1.4, que renderiza el juego.

Según los investigadores, al ejecutarse en una única TPU v5, GameNGen pudo alcanzar alrededor de 20 FPS. Si bien eso está lejos del objetivo de más de 60 FPS que se considera aceptable para la mayoría de los juegos de disparos en primera persona modernos, vale la pena señalar que el DOOM original alcanzó un máximo de 35 FPS de todos modos.

Los investigadores señalan que en realidad fue posible un rendimiento más rápido, hasta 50 FPS, al reducir a un solo paso de eliminación de ruido, pero notaron que la calidad se vio afectada como resultado.

En términos de calidad visual, los expertos afirman que los fotogramas generados son comparables a la compresión JPEG con pérdida de calidad, y que “los evaluadores humanos son apenas un poco mejores que el azar a la hora de distinguir los clips cortos del juego de los clips de la simulación”. Hemos incluido el vídeo para que juzguéis vosotros mismos, pero vale la pena señalar que esos “clips cortos” sólo suman entre 1,6 y 3,2 segundos de juego.

Como era de esperar, GameNGen es en realidad una prueba de concepto en este momento y sufre numerosas limitaciones, como se destaca en el documento. Una de las mayores se reduce a la memoria. Al ejecutarse en una única TPU v5, el modelo solo tiene suficiente espacio para almacenar unos 3 segundos de juego.

El mero hecho de que la lógica del juego pueda funcionar a pesar de esta limitación es “notable”, en palabras de los investigadores.

Otra limitación que se destaca en el texto es que depender de agentes de aprendizaje de refuerzo como fuente de datos de entrenamiento significa que no se mapearon todos los rincones del juego original. “Nuestro agente, incluso al final del entrenamiento, aún no explora todas las ubicaciones e interacciones del juego, lo que conduce a un comportamiento erróneo en esos casos”. ®

Fuente