Esta semana, X lanzó un generador de imágenes con inteligencia artificial que permite a los suscriptores de pago de la plataforma social de Elon Musk crear su propio arte. Por eso, como es natural, algunos usuarios parecen haber creado inmediatamente imágenes de Donald Trump. Volando un avión hacia el World Trade Center; Ratoncito Mickey En esta ocasión, se ve a un hombre armado con un fusil de asalto, a otro disfrutando de un cigarrillo y una cerveza en la playa, etcétera. Algunas de las imágenes que se han creado con esta herramienta son profundamente inquietantes, otras son simplemente extrañas o incluso un poco divertidas. Representan escenarios y personajes muy diferentes, pero de alguna manera todas se parecen y tienen características inconfundibles del arte de la IA que ha surgido en los últimos años gracias a productos como Midjourney y DALL-E.
Dos años después del auge de la IA generativa, las creaciones de estos programas parecen más avanzadas técnicamente: la imagen de Trump se ve mejor que, por ejemplo, Uno igualmente desagradable de Bob Esponja que el Creador de imágenes Bing de Microsoft generó en octubre pasado, pero se quedan con una estética distintiva. Los colores son brillantes y saturados, la gente es hermosa y la iluminación es dramática. Gran parte de las imágenes parecen borrosas o retocadas con aerógrafo, cuidadosamente suavizadas como el glaseado de una tarta de bodas. A veces, las imágenes parecen exageradas (y sí, con frecuencia hay errores). como dedos extra.) Un usuario puede evitar esta monotonía algorítmica utilizando indicaciones más específicas, por ejemplo, escribiendo Una imagen de un perro montando a caballo al estilo de Andy Warhol. En lugar de sólo Una imagen de un perro montando a caballo.. Pero cuando una persona no logra especificar, estas herramientas parecen recurrir por defecto a una extraña mezcla de dibujos animados y paisajes oníricos.
Estos programas son cada vez más comunes. Google Recién anunciado Una nueva aplicación de creación de imágenes con inteligencia artificial llamada Pixel Studio permitirá a las personas crear este tipo de arte en su teléfono Pixel. La aplicación vendrá preinstalada en todos los dispositivos más recientes de la compañía. Apple lanzará Patio de juegos de imágenes como parte de su conjunto de herramientas de inteligencia artificial Apple Intelligence Más adelante este añoOpenAI ahora permite a los usuarios de ChatGPT generar Dos imágenes gratuitas al día de DALL-E 3, su nuevo modelo de conversión de texto a imagen (antes, un usuario necesitaba un plan premium pago para acceder a la herramienta). Y entonces quise entender: ¿por qué tanto arte de IA parece igual?
Las propias empresas de inteligencia artificial no son especialmente comunicativas. X envió un correo electrónico formal en respuesta a una solicitud de comentarios sobre su nuevo producto y las imágenes que sus usuarios están creando. Cuatro empresas detrás de generadores de imágenes populares (OpenAI, Google, Stability AI y Midjourney) no respondieron o no brindaron comentarios. Un portavoz de Microsoft me dirigió a algunas de sus guías de sugerencias y remitió todas las preguntas técnicas a OpenAI, porque Microsoft usa una versión de DALL-E en productos como Bing Image Creator.
Así que recurrí a expertos externos, que me dieron cuatro posibles explicaciones. La primera se centra en los datos con los que se entrenan los modelos. Los generadores de texto a imagen se basan en extensas bibliotecas de fotos combinadas con descripciones de texto, que luego utilizan para crear sus propias imágenes originales. Las herramientas pueden detectar inadvertidamente cualquier sesgo en sus conjuntos de datos, ya sea racial o de género sesgo, o algo tan simple como colores brillantes y buena iluminación. Internet está lleno de décadas de fotos filtradas e iluminadas artificialmente, así como un montón de ilustraciones etéreas. “Vemos mucho arte de estilo fantástico y fotografías de archivo, que luego se filtran en los propios modelos”, me dijo Ziv Epstein, un científico del Instituto de Stanford para la IA centrada en el ser humano. También hay un número limitado de buenos conjuntos de datos disponibles para que las personas los usen para construir modelos de imágenes, me dijo Phillip Isola, un profesor del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, lo que significa que los modelos pueden superponerse en lo que se entrenan. (Uno popular, CelebridadAincluye 200.000 fotografías etiquetadas de celebridades. Otra, Laión 5Bes una opción de código abierto que incluye 5.800 millones de pares de fotografías y texto).
La segunda explicación tiene que ver con la tecnología en sí. La mayoría de los modelos modernos utilizan una técnica llamada difusión: Durante el entrenamiento, se enseña a los modelos a añadir “ruido” a las imágenes existentes, que se combinan con descripciones de texto. “Piénsalo como la estática de la televisión”, me dijo Apolinário Passos, ingeniero de arte de aprendizaje automático en Hugging Face, una empresa que crea sus propios modelos de código abierto. Luego, se entrena al modelo para eliminar este ruido, una y otra vez, en decenas de miles, si no millones, de imágenes. El proceso se repite y el modelo aprende a eliminar el ruido de una imagen. Finalmente, es capaz de tomar esta estática y crear una imagen original a partir de ella. Todo lo que necesita es un mensaje de texto.
Muchas empresas utilizan esta técnica. “Creo que estos modelos son todos técnicamente muy parecidos”, dijo Isola, señalando que las herramientas recientes se basan en la transformador modelo. Tal vez esta tecnología esté sesgada hacia una apariencia específica. Tomemos un ejemplo de un pasado no tan lejano: hace cinco años, explicó, los generadores de imágenes tendían a crear salidas realmente borrosas. Los investigadores se dieron cuenta de que era el resultado de una casualidad matemática; los modelos estaban promediando esencialmente todas las imágenes con las que fueron entrenados. El promedio, resulta, “parece borroso”. Es posible que, hoy, algo similar a lo técnico esté sucediendo con esta generación de modelos de imágenes que los lleva a generar el mismo tipo de imágenes dramáticas y altamente estilizadas, pero los investigadores aún no lo han descubierto. Además, “la mayoría de los modelos tienen un filtro 'estético' tanto en la entrada como en la salida que rechaza las imágenes que no cumplen con ciertos criterios estéticos”, me dijo por correo electrónico Hany Farid, profesor de la Escuela de Información de la UC Berkeley. “Este tipo de filtrado en la entrada y la salida es casi con certeza una gran parte de por qué todas las imágenes generadas por IA tienen cierta calidad etérea”.
La tercera teoría gira en torno a los humanos que utilizan estas herramientas. Algunos de estos sofisticados modelos incorporan retroalimentación humana; aprenden sobre la marcha. Esto podría ser mediante la recepción de una señal, como qué fotos se descargan. Otros, explicó Isola, tienen entrenadores que califican manualmente qué fotos les gustan y cuáles no. Tal vez esta retroalimentación se esté abriendo camino en el modelo. Si las personas están descargando arte que tiende a tener puestas de sol realmente espectaculares y paisajes marinos absurdamente hermosos, entonces las herramientas podrían estar aprendiendo que eso es lo que los humanos quieren, y luego les dan más de eso. Alexandru Costin, vicepresidente de IA generativa en Adobe, y Zeke Koch, vicepresidente de gestión de productos de Adobe Firefly (la herramienta de imágenes de IA de la empresa) me dijeron en un correo electrónico que la retroalimentación del usuario puede ser de hecho un factor para algunos modelos de IA, un proceso llamado “aprendizaje de refuerzo a partir de la retroalimentación humana” o RLHF. También señalaron los datos de entrenamiento, así como las evaluaciones realizadas por evaluadores humanos como factores influyentes. “El arte generado por modelos de IA a veces tiene un aspecto distintivo (especialmente cuando se crea utilizando indicaciones simples)”, dijeron en un comunicado. “Eso generalmente se debe a una combinación de las imágenes utilizadas para entrenar la salida de la imagen y los gustos de quienes entrenan o evalúan las imágenes”.
La cuarta teoría tiene que ver con los creadores de estas herramientas. Aunque los representantes de Adobe me dijeron que su empresa no hace nada para fomentar una estética específica, es posible que otros fabricantes de IA hayan captado las preferencias humanas y las hayan codificado, básicamente poniendo el pulgar en la balanza, diciéndoles a los modelos que hagan escenas de playa más de ensueño y mujeres de cuento de hadas. Esto podría ser intencional: si tales imágenes tienen un mercado, tal vez las empresas comiencen a converger en torno a ellas. O podría ser involuntario; las empresas hacer mucho trabajo manual en sus modelos para combatir los sesgos, por ejemplo, y varios ajustes que favorecen un tipo de imágenes sobre otras podrían dar como resultado inadvertidamente una apariencia particular.
Más de una de estas explicaciones podría ser cierta. De hecho, es probable que eso sea lo que está sucediendo: los expertos me dijeron que, muy probablemente, el estilo que vemos se debe a múltiples factores a la vez. Irónicamente, todas estas explicaciones sugieren que las escenas extrañas que asociamos con las imágenes generadas por IA son en realidad un reflejo de nuestras propias preferencias humanas, llevadas al extremo. No es de extrañar, entonces, que Facebook esté completado con imágenes generadas por IA que generan dinero para los creadores, que Etsy lanzó recientemente preguntó Los usuarios podrán etiquetar los productos elaborados con IA siguiendo Una oleada de listados basuray que la tienda de artesanía Michaels recientemente Me atraparon vendiendo un lienzo con una imagen que fue generada parcialmente por IA (la empresa sacó el productocalificando esto de “error inaceptable”).
Las imágenes generadas por inteligencia artificial están a punto de infiltrarse aún más en la vida cotidiana. Por ahora, este tipo de arte suele ser visualmente lo suficientemente distintivo como para que la gente sepa que fue creado por una máquina. Pero eso puede cambiar. La tecnología podría mejorar. Passos me dijo que ve “un intento de divergir de” la estética actual “en los modelos más nuevos”. De hecho, algún día el arte generado por computadora puede deshacerse de su aspecto extraño y caricaturesco y comenzar a pasar desapercibido para nosotros. Tal vez entonces echemos de menos el estilo cursi que alguna vez fue un claro indicio.