FLUX: Este nuevo generador de imágenes de IA es inquietantemente bueno para crear manos humanas
Agrandar / Imagen generada por IA por el desarrollador de FLUX.1: “Una hermosa reina del universo levantando sus manos, con el rostro en el fondo”.

FLUJO.1

El jueves, la startup de inteligencia artificial Black Forest Labs Anunciado el lanzamiento de su empresa y el lanzamiento de su primer conjunto de modelos de IA de texto a imagen, llamado FLUX.1. La empresa con sede en Alemania, fundada por investigadores que desarrollaron la tecnología detrás Difusión estable e inventó el técnica de difusión latentetiene como objetivo crear una IA generativa avanzada para imágenes y vídeos.

El lanzamiento de FLUX.1 se produce aproximadamente siete semanas después del problemático lanzamiento de Stability AI. Difusión estable 3 Medio a mediados de junio. La oferta de Stability AI enfrentó críticas generalizadas entre los aficionados a la síntesis de imágenes por su pobre desempeño en la generación de anatomía humana, y los usuarios compartieron ejemplos de miembros y cuerpos distorsionados en las redes sociales. Ese lanzamiento problemático siguió a la salida anterior de tres ingenieros clave de Stability AI: Robin Rombach, Andreas Blattmann y Dominik Lorenz, quienes luego fundaron Black Forest Labs junto con el codesarrollador de difusión latente Patrick Esser y otros.

Black Forest Labs lanzó tres modelos de conversión de texto a imagen FLUX.1: una versión comercial de gama alta “pro”, una versión de gama media “dev” con pesos abiertos para uso no comercial y una versión más rápida con pesos abiertos “schnell” (“schnell” significa rápido o veloz en alemán). Black Forest Labs afirma que sus modelos superan a las opciones existentes como Midjourney y DALL-E en áreas como la calidad de la imagen y la adherencia a las indicaciones de texto.

En nuestra experiencia, los resultados de los dos modelos FLUX.1 de gama alta son generalmente comparables con los de OpenAI. DALL-E 3 con fidelidad inmediata, con un fotorrealismo que parece cercano a Mitad del viaje 6Representan una mejora significativa con respecto a Difusión estable XLel último lanzamiento importante del equipo en el área de estabilidad (si no cuentas Turbo SDXL).

Los modelos FLUX.1 utilizan lo que la empresa denomina una “arquitectura híbrida” que combina técnicas de difusión y transformación, ampliadas hasta 12 mil millones de parámetros. Black Forest Labs afirmó que mejora los modelos de difusión anteriores al incorporar coincidencia de flujo y otras optimizaciones.

FLUX.1 parece competente para generar manos humanas, lo cual era un punto debil En modelos de síntesis de imágenes anteriores, como Stable Diffusion 1.5, esto se debió a la falta de imágenes de entrenamiento que se centraran en las manos. Desde aquellos primeros días, otros generadores de imágenes de IA, como Midjourney, también han dominado las manos, pero es notable ver un modelo de pesos abiertos que representa las manos con relativa precisión en varias poses.

Descargamos el archivo de pesos al modelo de desarrollo FLUX.1 desde GitHubpero con 23 GB, no cabe en los 12 GB de VRAM de nuestra tarjeta RTX 3060, por lo que necesitará cuantificación ejecutar localmente (reduciendo su tamaño), algo con lo que, según se informa (a través de conversaciones en Reddit), algunas personas ya han tenido éxito.

En su lugar, experimentamos con modelos FLUX.1 en plataformas de alojamiento de IA en la nube. Caer y Reproducir exactamentecuyo uso cuesta dinero, aunque Fal ofrece algunos créditos gratuitos para comenzar.

La Selva Negra mira hacia el futuro

Puede que Black Forest Labs sea una empresa nueva, pero ya está atrayendo financiación de inversores. Recientemente cerró una ronda de financiación inicial de 31 millones de dólares liderada por Andreessen Horowitz, con inversiones adicionales de General Catalyst y MätchVC. La empresa también incorporó a asesores de alto perfil, entre ellos un ejecutivo del mundo del entretenimiento y expresidente de Disney. Michael Ovitz y investigador de IA Matías Bethge.

“Creemos que la IA generativa será un elemento fundamental de todas las tecnologías futuras”, afirmó la empresa en su anuncio. “Al poner nuestros modelos a disposición de un público amplio, queremos acercar sus beneficios a todo el mundo, educar al público y aumentar la confianza en la seguridad de estos modelos”.

Hablando de “confianza y seguridad”, la empresa no mencionó de dónde obtuvo los datos de entrenamiento que enseñaron a los modelos FLUX.1 a generar imágenes. A juzgar por los resultados que pudimos producir con el modelo que incluía representaciones de personajes con derechos de autor, Black Forest Labs probablemente utilizó una gran cantidad de imágenes no autorizadas extraídas de Internet, posiblemente recopiladas por Laiónuna organización que Recopiló los conjuntos de datos que entrenó a Stable Diffusion. Esto es especulación en este momento. Si bien el logro tecnológico subyacente de FLUX.1 es notable, parece probable que el equipo esté jugando con la ética del raspado de imágenes de “uso justo”, como lo hizo Stability AI. Esa práctica puede eventualmente atraer demandas judiciales como las presentadas contra Stability AI.

Aunque la generación de texto a imagen es el enfoque actual de Black Forest, la compañía planea expandirse a la generación de video a continuación, diciendo que FLUX.1 servirá como base para un nuevo modelo de texto a video en desarrollo, que competirá con OpenAI. SoraPista de aterrizaje Gen-3 Alfay de Kuaishou Kling en un concurso para deformar la realidad de los medios a la carta. “Nuestros modelos de vídeo permitirán la creación y edición precisas en alta definición y a una velocidad sin precedentes”, afirma el anuncio de Black Forest.

Fuente