Stability afirma que sus modelos más nuevos de Difusión Estable generan imágenes más “diversas”

Tras una serie de controversias derivadas de problemas técnicos y cambios de licenciainicio de IA Estabilidad IA ha anunciado su última familia de modelos de generación de imágenes.

La nueva serie Stable Diffusion 3.5 es más personalizable y versátil que la tecnología de generación anterior de Stability, afirma la compañía, además de tener más rendimiento. Hay tres modelos en total:

  • Difusión estable 3.5 Grande: Con 8 mil millones de parámetros, es el modelo más potente, capaz de generar imágenes con resoluciones de hasta 1 megapíxel. (Los parámetros corresponden aproximadamente a las habilidades de resolución de problemas de un modelo, y los modelos con más parámetros generalmente funcionan mejor que aquellos con menos).
  • Difusión estable 3.5 Turbo grande: Una versión destilada de Stable Diffusion 3.5 Large que genera imágenes más rápidamente, a costa de algo de calidad.
  • Difusión estable 3.5 Medio: Un modelo optimizado para funcionar en dispositivos de última generación como teléfonos inteligentes y portátiles, capaz de generar imágenes con resoluciones que van desde 0,25 a 2 megapíxeles.

Si bien Stable Diffusion 3.5 Large y 3.5 Large Turbo están disponibles hoy, 3.5 Medium no se lanzará hasta el 29 de octubre.

Stability dice que los modelos Stable Diffusion 3.5 deberían generar resultados más “diversos”, es decir, imágenes que muestren personas con diferentes tonos de piel y características, sin la necesidad de indicaciones “extensas”.

“Durante el entrenamiento, cada imagen está subtitulada con múltiples versiones de indicaciones, priorizando las indicaciones más cortas”, dijo a TechCrunch Hanno Basse, director de tecnología de Stability, en una entrevista. “Esto garantiza una distribución más amplia y diversa de conceptos de imagen para cualquier descripción de texto determinada. Como la mayoría de las empresas de IA generativa, nos entrenamos con una amplia variedad de datos, incluidos conjuntos de datos filtrados disponibles públicamente y datos sintéticos”.

Algunas empresas han incorporado torpemente este tipo de funciones “diversificadoras” en generadores de imágenes en el pasado, provocando protestas en las redes sociales. Un versión anterior del chatbot Gemini de Google, por ejemplo, mostraría un grupo anacrónico de cifras para mensajes históricos como “una legión romana” o “senadores estadounidenses”. Google se vio obligado a pausa generación de imágenes de personas durante casi seis meses mientras desarrollaba una solución.

Con un poco de suerte, el enfoque de Estabilidad será más reflexivo que otros. Desafortunadamente, no podemos dar impresiones porque Stability no proporcionó acceso temprano.

Créditos de imagen:Estabilidad IA

El anterior generador de imágenes insignia de Stability, Stable Diffusion 3 Medium, fue criticado rotundamente por sus artefactos peculiares y su pobre adherencia a las indicaciones. La compañía advierte que los modelos Stable Diffusion 3.5 podrían sufrir errores de aviso similares; culpa a las compensaciones entre ingeniería y arquitectura. Pero Stability también afirma que los modelos son más robustos que sus predecesores a la hora de generar imágenes en una variedad de estilos diferentes, incluido el arte 3D.

“Puede ocurrir una mayor variación en los resultados del mismo mensaje con diferentes semillas, lo cual es intencional ya que ayuda a preservar una base de conocimiento más amplia y estilos diversos en los modelos base”, escribió Stability en un publicación de blog compartido con TechCrunch. “Sin embargo, como resultado, las indicaciones que carecen de especificidad pueden generar una mayor incertidumbre en el resultado y el nivel estético puede variar”.

Estabilidad IA
Créditos de imagen:Estabilidad IA

Algo que no ha cambiado con los nuevos modelos son las licencias de Estabilidad.

Al igual que con los modelos Stability anteriores, los modelos de la serie Stable Diffusion 3.5 se pueden utilizar de forma gratuita para fines “no comerciales”, incluida la investigación. Las empresas con menos de 1 millón de dólares de ingresos anuales también pueden comercializarlos sin coste alguno. Sin embargo, las organizaciones con más de $1 millón en ingresos deben contratar con Stability una licencia empresarial.

La estabilidad provocó un remover este verano sobre sus restrictivos términos de ajuste, que otorgaban (o al menos parecían otorgar) a la compañía el derecho de cobrar tarifas por los modelos entrenados en imágenes de sus generadores de imágenes. En respuesta al retroceso, la empresa equilibrado sus términos para permitir un uso comercial más liberal. Stability reafirmó hoy que los usuarios son propietarios de los medios que generan con los modelos Stability.

“Alentamos a los creadores a distribuir y monetizar su trabajo en todo el proceso”, dijo Ana Guillén, vicepresidenta de marketing y comunicaciones de Stability, en un comunicado enviado por correo electrónico, “siempre que proporcionen una copia de nuestra licencia comunitaria a los usuarios de esos creaciones y mostrar de manera destacada 'Desarrollado por Stability AI' en sitios web relacionados, interfaces de usuario, publicaciones de blogs, páginas Acerca de o documentación de productos”.

Stable Diffusion 3.5 Large y Diffusion 3.5 Large Turbo pueden hospedarse por sí mismos o usarse a través de la API de Stability y plataformas de terceros, incluidas Hugging Face, Fireworks, Replicate y ComfyUI. Stability dice que planea lanzar ControlNets para los modelos, que permiten ajustes, en los próximos días.

Los modelos de Stability, como la mayoría de los modelos de IA, se entrenan con datos web públicos, algunos de los cuales pueden tener derechos de autor o estar bajo una licencia restrictiva. Stability y muchos otros proveedores de IA argumentan que el uso legítimo La doctrina los protege de reclamos de derechos de autor. Pero eso no ha impedido que los propietarios de datos de Presentar un número creciente de demandas colectivas..

Estabilidad AI Difusión estable 3.5
Créditos de imagen:Estabilidad IA

Stability deja que los clientes se defiendan contra reclamos de derechos de autor y, a diferencia de otros proveedores, no tiene ninguna excepción de pago en caso de que se le considere responsable.

Estabilidad hace Sin embargo, permite a los propietarios de datos solicitar que sus datos se eliminen de sus conjuntos de datos de entrenamiento. En marzo de 2023, los artistas habían eliminado 80 millones de imágenes de los datos de entrenamiento de Stable Diffusion, según la empresa.

Cuando se le preguntó sobre las medidas de seguridad en torno a la desinformación a la luz de las próximas elecciones generales de EE. UU., Stability dijo que “ha tomado, y continúa tomando, pasos razonables para evitar el uso indebido de Stable Diffusion por parte de malos actores”. Sin embargo, la startup se negó a dar detalles técnicos específicos sobre esos pasos.

A partir de marzo, Stability solo prohibió el contenido explícitamente “engañoso” creado con sus herramientas de inteligencia artificial generativa, no el contenido que pudiera influir en las elecciones, dañar la integridad electoral o que incluya a políticos y figuras públicas.

¡TechCrunch tiene un boletín informativo centrado en la IA! Regístrate aquí para recibirlo en tu bandeja de entrada todos los miércoles.

Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here