Hicimos que un gato bebiera una cerveza con el generador de videos de IA de Runway y le brotaron manos

En junio, Runway estrenó un nuevo modelo de síntesis de texto a video llamado Gen-3 AlfaConvierte descripciones escritas llamadas “indicaciones” en videoclips de alta definición sin sonido. Desde entonces, hemos tenido la oportunidad de utilizarlo y hemos querido compartir nuestros resultados. Nuestras pruebas muestran que una indicación cuidadosa no es tan importante como la coincidencia de conceptos que probablemente se encuentren en los datos de entrenamiento, y que lograr resultados divertidos probablemente requiera muchas generaciones y una selección selectiva.

Un tema persistente de todos los modelos de IA generativa que hemos visto desde 2022 es que pueden ser excelentes para combinar conceptos que se encuentran en los datos de entrenamiento, pero suelen ser muy malos para generalizar (aplicar el “conocimiento” aprendido a nuevas situaciones en las que el modelo no ha sido entrenado explícitamente). Eso significa que pueden sobresalir en la novedad estilística y temática, pero tienen dificultades en la novedad estructural fundamental que va más allá de los datos de entrenamiento.

¿Qué significa todo esto? En el caso de Runway Gen-3, la falta de generalización significa que se puede pedir un velero en una taza de café que gira y, siempre que los datos de entrenamiento de Gen-3 incluyan ejemplos de vídeo de veleros y café que gira, esa es una combinación novedosa “fácil” para que el modelo la haga de forma bastante convincente. Pero si se pide un gato bebiendo una lata de cerveza (en un anuncio de cerveza), generalmente no se conseguirá porque es probable que no haya muchos vídeos de gatos fotorrealistas bebiendo bebidas humanas en los datos de entrenamiento. En cambio, el modelo extraerá lo que ha aprendido sobre los vídeos de gatos y los vídeos de anuncios de cerveza y los combinará. El resultado es un gato con manos humanas bebiendo una cerveza.

Algunas indicaciones básicas

Durante la fase de prueba de Gen-3 Alpha, nos suscribimos al plan Standard de Runway, que ofrece 625 créditos por $15 al mes, más algunos créditos de prueba gratuitos adicionales. Cada generación cuesta 10 créditos por segundo de video, y creamos videos de 10 segundos por 100 créditos cada uno. Por lo tanto, la cantidad de generaciones que podíamos hacer era limitada.

Primero probamos algunos estándares de nuestras pruebas de síntesis de imágenes en el pasado, como gatos bebiendo cerveza, bárbaros con televisores CRTy reinas del universoTambién nos sumergimos en la historia de Ars Technica con el “tiburón lunar”, nuestra mascota. Verás todos esos resultados y más a continuación.

Teníamos tan pocos créditos que no podíamos permitirnos repetirlos y seleccionar los que más nos interesaban, así que lo que ves para cada mensaje es exactamente la generación que recibimos de Runway.

“Una persona muy inteligente está leyendo “Ars Technica” en su computadora cuando la pantalla explota”

“Anuncio publicitario de una nueva hamburguesa con queso flameada de McDonald's”

“El tiburón luna saltando de la pantalla de una computadora y atacando a una persona”

“Un gato en un coche bebiendo una lata de cerveza, anuncio de cerveza”

Will Smith comiendo espaguetis“Se activó un filtro, así que lo intentamos”Un hombre negro comiendo espaguetis.” (Mira hasta el final.)

“Animales humanoides robóticos con disfraces de vodevil deambulan por las calles recaudando dinero de protección en fichas”

“Un jugador de baloncesto en un vagón de tren de pasajeros embrujado con una cancha de baloncesto, y está jugando contra un equipo de fantasmas”

“Una manada de un millón de gatos corriendo por una ladera, vista aérea”

“Imágenes de un videojuego de plataformas en tercera persona en 3D de los años 90, protagonizado por un niño tiburón antropomórfico”

Fuente