El modelo Movie Gen de Meta produce videos realistas con sonido, para que finalmente podamos tener un Moo Deng infinito

Nadie sabe realmente para qué son útiles los modelos de vídeo generativo todavía, pero eso no ha detenido a empresas como Pista, Abierto AIy Meta de invertir millones en desarrollarlos. Lo último de Meta se llama Movie Geny fiel a su nombre, convierte las indicaciones de texto en videos relativamente realistas con sonido… pero afortunadamente todavía no hay voz. Y sabiamente no le darán a conocer esto al público.

Movie Gen es en realidad una colección (o “elenco”, como lo llaman) de modelos básicos, el más grande de los cuales es el bit de texto a video. Meta afirma que supera a Gen3 de Runway, el último de LumaLabs y Kling1.5, aunque, como siempre, este tipo de cosas es más para mostrar que están jugando el mismo juego que para que Movie Gen gane. Los detalles técnicos se pueden encontrar en el documento publicado por Meta que describe todos los componentes.

El audio se genera para que coincida con el contenido del vídeo, agregando, por ejemplo, ruidos de motor que se corresponden con los movimientos del automóvil, o el ruido de una cascada en el fondo, o un trueno a mitad del video cuando es necesario. Incluso agregará música si eso parece relevante.

Fue entrenado en “una combinación de conjuntos de datos con licencia y disponibles públicamente” que llamaron “de propiedad/comercialmente sensibles” y no proporcionaron más detalles. Solo podemos adivinar que significa una gran cantidad de videos de Instagram y Facebook, además de algunas cosas de socios y muchos otros que no están protegidos adecuadamente contra los raspadores, también conocidos como “disponibles públicamente”.

Sin embargo, lo que Meta claramente pretende aquí no es simplemente capturar la corona del “estado del arte” durante uno o dos meses, sino un enfoque práctico, de sopa a nueces, donde se pueda producir un producto final sólido a partir de un proceso muy simple. , mensaje en lenguaje natural. Cosas como “imagíname como un panadero haciendo un pastel de hipopótamo brillante en medio de una tormenta”.

Por ejemplo, un punto conflictivo para estos generadores de vídeo ha sido lo difícil que suele ser editarlos. Si solicita un video de alguien cruzando la calle y luego se da cuenta de que quiere que camine de derecha a izquierda en lugar de de izquierda a derecha, es muy probable que toda la toma se vea diferente cuando repita el mensaje con esa instrucción adicional. Meta está agregando un método de edición simple basado en texto en el que simplemente puedes decir “cambiar el fondo a una intersección concurrida” o “cambiarse de ropa por un vestido rojo” e intentará realizar ese cambio, pero solo ese cambio.

Créditos de imagen:Meta

Los movimientos de la cámara también se entienden generalmente, y se tienen en cuenta cosas como el “tracking shot” y la “panorámica hacia la izquierda” al generar el vídeo. Esto sigue siendo bastante torpe en comparación con el control de la cámara real, pero es mucho mejor que nada.

Las limitaciones del modelo son un poco extrañas. Genera vídeo de 768 píxeles de ancho, una dimensión familiar para la mayoría del famoso pero obsoleto 1024×768, pero que también es tres veces 256, lo que lo hace funcionar bien con otros formatos HD. El sistema Movie Gen aumenta esto a 1080p, que es la fuente de la afirmación de que genera esa resolución. No es realmente cierto, pero les daremos un pase porque la ampliación es sorprendentemente efectiva.

Curiosamente, genera hasta 16 segundos de vídeo… a 16 fotogramas por segundo, una velocidad de fotogramas que nadie en la historia ha querido ni pedido. Sin embargo, también puedes grabar 10 segundos de vídeo a 24 FPS. ¡Lidera con ese!

En cuanto a por qué no emite voz… bueno, probablemente hay dos razones. Primero, es muy difícil. Generar voz es fácil ahora, pero relacionarlo con los movimientos de los labios, y esos labios con los movimientos de la cara, es una propuesta mucho más complicada. No los culpo por dejar esto para más tarde, ya que sería un caso de falla en el minuto uno. Alguien podría decir “generar un payaso que pronuncie el discurso de Gettysburg mientras anda en círculos en una pequeña bicicleta”: combustible de pesadilla preparado para volverse viral.

La segunda razón es probablemente política: publicar lo que equivale a un generador de deepfake un mes antes de una elección importante no es… lo mejor desde el punto de vista óptico. Reducir un poco sus capacidades para que, en caso de que actores maliciosos intenten utilizarlo, requiera un trabajo real de su parte, es un paso preventivo práctico. Ciertamente se podría combinar este modelo generativo con un generador de voz y uno de sincronización labial abierta, pero no se puede simplemente hacer que genere un candidato que haga afirmaciones descabelladas.

“Movie Gen es puramente un concepto de investigación de IA en este momento, e incluso en esta etapa inicial, la seguridad es una máxima prioridad como lo ha sido con todas nuestras tecnologías de IA generativa”, dijo un representante de Meta en respuesta a las preguntas de TechCrunch.

A diferencia de, por ejemplo, los modelos de lenguaje grande Llama, Movie Gen no estará disponible públicamente. Puede replicar sus técnicas en cierta medida siguiendo el artículo de investigación, pero el código no se publicará, excepto el “conjunto de datos de indicaciones de evaluación subyacente”, es decir, el registro de qué indicaciones se utilizaron para generar los videos de prueba.

Fuente