FLUX.1 de código abierto de Black Forest Labs: un transformador de flujo rectificado de 12 mil millones de parámetros capaz de generar imágenes a partir de descripciones de texto

En un anuncio trascendental, Black Forest Labs ha emergido como un nuevo actor en el panorama de la IA generativa. Con profundas raíces en la comunidad de investigación, esta innovadora empresa tiene como objetivo revolucionar el campo de los modelos de aprendizaje profundo generativo, centrándose especialmente en medios como imágenes y videos. Su misión es clara: ampliar los límites de la creatividad, la eficiencia y la diversidad en el contenido generado por IA. Black Forest Labs visualiza la IA generativa como una piedra angular de las tecnologías futuras y se compromete a hacer que sus modelos sean accesibles a una amplia audiencia. Al hacerlo, esperan educar al público y fomentar la confianza en la seguridad de estos modelos avanzados. Como su oferta inaugural, Laboratorios de la Selva Negra ha presentado la suite FLUX.1una colección de modelos de vanguardia diseñados para redefinir las posibilidades de la síntesis de texto a imagen.

Fuente de la imagen: https://blackforestlabs.ai/announcing-black-forest-labs/

La suite FLUX.1 representa un avance significativo en la síntesis de texto a imagen. Esta innovadora colección de modelos establece nuevos puntos de referencia en varias áreas clave:

• Detalle de la imagen: produce imágenes sorprendentemente nítidas y complejas.

• Adherencia inmediata: traducir con precisión las descripciones de texto en representaciones visuales

• Diversidad de estilos: Ofreciendo una amplia gama de opciones artísticas y estilísticas.

• Complejidad de la escena: manejo de composiciones de imágenes complejas y multifacéticas

Para satisfacer las diversas necesidades de los usuarios, FLUX.1 está disponible en tres variantes distintas:

• FLUX.1 (pro): El modelo insignia, que ofrece un rendimiento de primer nivel para aplicaciones profesionales

• FLUX.1 (dev): Un modelo de peso abierto para uso no comercial, que equilibra calidad y eficiencia

• FLUX.1 (schnell): Un modelo rápido diseñado para el desarrollo local y proyectos personales

Fuente de la imagen: https://blackforestlabs.ai/announcing-black-forest-labs/

Cada variante es accesible a través de diferentes plataformas y opciones de licencia, lo que garantiza que usuarios de diversos orígenes puedan aprovechar el poder de FLUX.1 para sus requisitos específicos.

Fuente de la imagen: https://blackforestlabs.ai/announcing-black-forest-labs/

Basándose en la base de la adaptación de flujo, los modelos FLUX.1 emplean una arquitectura híbrida sofisticada. Este diseño incorpora bloques de transformadores de difusión multimodales y paralelos, escalados a una impresionante escala. 12 mil millones de parámetrosLa integración de incrustaciones posicionales rotatorias y capas de atención paralelas mejora tanto el rendimiento como la eficiencia del hardware, lo que distingue a FLUX.1 de los modelos de difusión de última generación anteriores en el campo de la IA generativa.

FLUX.1 se ha establecido como líder en la tecnología de síntesis de imágenes, estableciendo nuevos puntos de referencia en varias clases de modelos. Las variantes FLUX.1 (pro) y (dev) han superado a competidores populares como Midjourney v6.0, DALL·E 3 (HD) y SD3-Ultra en aspectos críticos como la calidad visual, la adherencia inmediata, la flexibilidad de tamaño y relación de aspecto, la tipografía y la diversidad de salida. Incluso el modelo FLUX.1 (schnell), diseñado para un procesamiento rápido, supera no solo a sus competidores directos sino también a los modelos robustos no destilados. Una fortaleza clave de la suite FLUX.1 es su capacidad para mantener el espectro completo de diversidad de salida desde el preentrenamiento, lo que ofrece posibilidades creativas significativamente mejoradas en comparación con los modelos de última generación existentes en el campo.

Fuente de la imagen: https://blackforestlabs.ai/announcing-black-forest-labs/

FLUX.1 cuenta con varias características clave que lo distinguen en el panorama de la IA generativa:

• Calidad de salida superior y adherencia rápida y precisa, que rivalizan con las alternativas de código cerrado

• FLUX.1 (schnell) emplea destilación de difusión adversarial latente, lo que permite la generación de imágenes de alta calidad en solo 1 a 4 pasos

• Publicado bajo la licencia Apache 2.0, lo que permite un uso versátil en aplicaciones personales, científicas y comerciales.

Estas características se combinan para hacer de FLUX.1 una herramienta potente y accesible para una amplia gama de necesidades de síntesis de imágenes.

Para facilitar la adopción y el desarrollo, Black Forest Labs ha proporcionado una implementación de referencia y un código de muestra para FLUX.1 (schnell) en un repositorio de GitHub dedicado. Este recurso sirve como un excelente punto de partida para desarrolladores y creativos que buscan utilizar las capacidades de FLUX.1 (schnell) en sus proyectos, fomentando la innovación y la experimentación con este modelo avanzado de conversión de texto a imagen.

Basándose en la naturaleza accesible de FLUX.1, Black Forest Labs ha simplificado el proceso de instalación local. Para aquellos que deseen experimentar con el modelo en sus propias máquinas, la siguiente guía paso a paso ofrece un método de instalación sencillo:

Este sencillo proceso de configuración permite a los desarrolladores y entusiastas integrar rápidamente FLUX.1 en sus entornos locales, lo que facilita la exploración y el desarrollo prácticos con este modelo de texto a imagen de vanguardia.

Si bien FLUX.1 representa un avance significativo en la síntesis de texto a imagen, es importante reconocer sus limitaciones y su uso previsto. El modelo no está diseñado para proporcionar información factual y puede amplificar inadvertidamente los sesgos sociales. La calidad de su resultado puede variar según el estilo de indicación. Los usuarios deben cumplir con estrictas pautas éticas, evitando cualquier actividad ilegal, explotación de menores, difusión de información falsa, acoso, creación de contenido no consensuado o toma de decisiones automatizada que afecte los derechos de las personas. El modelo no debe utilizarse para campañas de desinformación a gran escala ni para generar información personal identificable que pueda dañar a otros. Estas restricciones garantizan un uso responsable de esta poderosa herramienta de inteligencia artificial.

Black Forest Labs ha presentado FLUX.1, un conjunto de modelos de síntesis de texto a imagen de vanguardia. Disponible en tres variantes ((pro), (dev) y (schnell)), FLUX.1 establece nuevos puntos de referencia en detalle de imagen, adherencia rápida, diversidad de estilos y complejidad de escena. Los modelos utilizan una arquitectura híbrida con 12 mil millones de parámetros, superando a competidores como Midjourney v6.0 y DALL·E 3 en varios aspectos. FLUX.1 se publica bajo la licencia Apache 2.0, lo que permite aplicaciones versátiles. Si bien es potente, los usuarios deben cumplir con las pautas éticas para garantizar un uso responsable. Black Forest Labs tiene como objetivo revolucionar la IA generativa y hacerla accesible a una amplia audiencia.


Revisar la Detalles, GitHub, FLUX.1 (profesional), FLUX.1 (desarrollo)y FLUX.1 (rápido). Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit

Encuentra lo próximo Seminarios web sobre IA aquí


Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.



Fuente