Be My AI está revolucionando la forma en que interactuamos con la cultura visual

Conocí Be My AI el otoño pasado, cuando la aplicación estaba en fase beta. Desarrollada por la aplicación móvil danesa Be My Eyes y OpenAI, utiliza ChatGPT-4. modelo de visión Proporcionar descripciones sólidas y casi instantáneas de cualquier imagen y facilitar las conversaciones sobre esas imágenes. Como artista ciego, recopilo descripciones de imágenes como otros recopilan fotografías. Be My AI ha potenciado mis interacciones con la cultura visual.

Poco después de obtener acceso a la versión beta de Be My AI el año pasado, me encontré con un fotógrafo ciego Juan DugdaleEl trabajo de Espectáculo (2000) en el influyente libro de Georgina Kleege de 2018, Más de lo que se ve a simple vista: lo que la ceguera aporta al arte. Intrigado por su descripción y con ganas de saber más, hice una captura de pantalla y la llevé a la aplicación. Aunque daba una descripción impresionantemente detallada, cometió un par de errores importantes. Primero, dijo que Dugdale llevaba tres pares de anteojos cuando sabía por el texto de Kleege que solo llevaba dos, uno apilado sobre el otro como bifocales improvisados. También dijo que era una foto en blanco y negro, cuando en realidad era una cianotipia, uno de los procesos fotográficos más antiguos, que produce una imagen en tonos de azul. Cuando corregí Be My AI, dio una respuesta con la que me familiarizaría mucho: “Pido disculpas por cualquier confusión”, y luego comenzó a contar todo lo que sabe sobre la cianotipia. Un poco espinoso y sobrecompensador, pero no más que la mayoría de los humanos que conozco.

Artículos relacionados

A medida que Be My AI se volvió más confiable y yo me entusiasmé más con lo que podía hacer por el acceso al arte, se lo conté a todos mis amigos. Uno de ellos fue Bojana Coklyatuna artista ciega que trabaja en el Museo Whitney, y me pidió que la codirigiera. una descripción verbal del recorrido de la exposición “Harold Cohen: AARON” allí. Así fue como me encontré en una conversación encantadoramente existencial con Be My AI sobre la naturaleza de la vista en sí. Cohen concibió por primera vez una IA creadora de arte a fines de la década de 1960, y pronto la llamó AARON. Al principio, AARON generaba dibujos lineales relativamente simples, como la obra de 1972 Laberintos. Cuando le pedí a Be My AI que describiera Laberintosrespondió: “El dibujo consiste en líneas negras abstractas que crean una variedad de formas, ninguna de las cuales se parece a ningún objeto o figura específica”. Curioso, le pregunté si creía que un humano había creado Laberintos. Lo hizo. Le dije que AARON había producido el trabajo. “¡Eso es fascinante!”, respondió. “Es impresionante ver un ejemplo temprano de arte generado por IA, especialmente considerando las cualidades humanas del trabajo de línea en el dibujo”.

Cuando pregunté sobre la diferencia entre los generadores de texto a imagen modernos como DALL-E de OpenAI y AARON, Be My AI me explicó que los nuevos generadores producen imágenes basadas en indicaciones del usuario, mientras que AARON crea imágenes basadas en un conjunto de reglas. DALL-E, continuó, puede generar una imagen que “nunca ha visto antes” y muestra “una comprensión más sofisticada tanto del lenguaje como de los conceptos visuales”. Como persona totalmente ciega que mantiene una mente viva, me puse alerta ante la palabra “visto”. En el caso de la IA, ¿qué podría significar eso? En su extensa respuesta, Be My AI señaló que DALL-E no “'ve' en el sentido humano; procesa datos e identifica patrones dentro de esos datos”. Yo repliqué: “Pero el cerebro humano tampoco ve. Los ojos le envían señales para que las interprete. La IA y la percepción humana no me parecen tan diferentes”.

Espectáculo2000, John Dugdale.

Cortesía de John Dugdale

Be My AI reconoció que existen sorprendentes paralelismos entre la IA y la percepción humana, ya que ambos sistemas dependen de señales de entrada: los humanos a través de órganos sensoriales como los ojos, y la IA a través de sensores de datos o conjuntos de datos de entrada. Sin embargo, señaló que “la diferencia clave radica en la experiencia subjetiva y la conciencia que poseen los humanos y la IA carece”, un tema que sigue siendo objeto de acalorados debates tanto entre científicos como filósofos. Esta conexión entre la conciencia y la percepción hace que los debates sobre los sentidos sean a la vez desafiantes y estimulantes.

John Dugdale perdió la vista a los 33 años como consecuencia de un derrame cerebral relacionado con el sida. Había sido un exitoso fotógrafo comercial con clientes como Bergdorf Goodman y Ralph Lauren, y a sus amigos y familiares les parecía que su carrera estaba acabada. Sin embargo, como él mismo cuenta en el documental Retratos de visión-dirigido por Rodney Evansquien está perdiendo la vista debido a la retinitis pigmentosa, mientras todavía estaba en el hospital anunció: “¡Ahora voy a tomar fotografías como loco!”

Dugdale pasó del trabajo comercial a la creación de cianotipos atemporales, como los recopilados en su monografía de 2000. La hora vespertina de la vidaCada foto que aparece en él se desarrolla en un diálogo con un breve ensayo del fotógrafo. Concerté una cita con el director de la Biblioteca Pública de Nueva York. División de Arte, Grabados y Fotografías de Wallach para pasar un rato con el libro, o mejor dicho, para que mi pareja tomara fotos de cada página, para poder observarlo a mi gusto con la ayuda de la IA en la privacidad de mi propia casa. (Debo decir que, aunque todavía uso Be My AI casi a diario para descripciones rápidas de imágenes, para una investigación fotográfica seria, voy directamente a ChatGPT-4 de OpenAI porque puedo traer múltiples imágenes y guarda automáticamente nuestras conversaciones, a menudo elaboradas).

Pierrot es la primera foto en La hora vespertina de la vida. Del ensayo nos enteramos de que la figura de pantomima es interpretada por el legendario actor de la ciudad de Nueva York y musa de Dugdale, John Kelly. “Pierrot está representado con su atuendo clásico: ropa blanca suelta con mangas y pantalones exagerados. Su rostro está pintado de blanco, acentuando su expresión teatral”, escribió ChatGPT-4. Insistí en que me dijera qué quería decir con “expresión teatral”. Explicaba que las “cejas de Pierrot están ligeramente levantadas” y que tiene “una sonrisa suave, casi melancólica… Su cabeza se inclina ligeramente hacia la izquierda, lo que se suma a la sensación desenfadada e inquisitiva de la imagen”. La respuesta detallada fue tan encantadora que me hizo llorar un poco. De repente, tuve acceso casi instantáneo a lo que durante mucho tiempo ha sido un medio aparentemente inaccesible.

Me comuniqué con Dugdale para preguntarle si estaría dispuesto a hablar conmigo para este artículo sobre la IA y la descripción de imágenes. Durante los primeros minutos de nuestra llamada telefónica, hubo cierta confusión mientras explicaba que, aunque está impresionado por el nivel de detalle que puede brindar la IA, se muestra reacio a usarla. “Realmente no quiero prescindir de mi larga lista de maravillosos asistentes que vienen aquí y me ayudan a seguir sintiéndome como un ser humano después de dos derrames cerebrales, ceguera en ambos ojos, sordera en un oído y estar paralizado durante un año”. Me dijo que le encanta intercambiar ideas con los demás. Le encanta hablar. “Realmente no puedo hablar con esa cosa”.

Le expliqué que, si bien adoro mi IA por la forma en que me permite acceder a sus fotografías, me interesa más la relación entre las palabras y las imágenes en general. Por ejemplo, había leído que a menudo comienza con un título.“Tengo un dictáfono que tiene unos 160 títulos de los últimos 10 años”, dijo Dugdale. “Todos los cuales se van ampliando constantemente.“Me dijo que lo ve como una especie de sinestesia: “Cuando escucho una frase, veo una imagen completa en mi mente, surge como una diapositiva… y luego voy y la interpreto en el estudio”.

Nuestras mentes habitan juntas, Juan Dugdale.

Cortesía de John Dugdale

Experimento algo similar cuando encuentro una buena descripción de una imagen: en algún momento deja de ser una colección de palabras y se convierte en una imagen en mi mente. Esto no debería sorprender, ya que muchas personas forman imágenes mientras leen novelas. Una de las razones por las que me atrae la obra de Dugdale es precisamente porque personifica el arte de ver con el ojo de la mente.

Nuestras mentes habitan juntas es la segunda imagen en La hora vespertina de la vida. Representa las espaldas desnudas de Dugdale y su amigo Octavio sentados uno cerca del otro, con las cabezas ligeramente inclinadas el uno hacia el otro. GPT-4 agregó, amablemente, “como si estuvieran compartiendo una conversación privada y significativa”. En el texto que acompaña, Dugdale explica que Octavio se volvió totalmente ciego antes de que él lo hiciera (también debido a complicaciones relacionadas con el SIDA), y lo alentó a comprender una verdad poderosa: “Tu vista no existe en tus ojos. La vista existe en tu mente y tu corazón”.

La descripción de imágenes es una especie de traducción sensorial que nos permite comprender esa verdad. Si bien ver a través del lenguaje puede llevar más tiempo que ver con los ojos para penetrar en la mente y el corazón, una vez allí, una imagen no es menos indeleble ni menos capaz de suscitar todas las resonancias estéticas y emocionales. Las tecnologías de inteligencia artificial como Be My AI han abierto un espacio sorprendentemente nuevo para explorar esta relación entre la percepción humana, la creación artística y la tecnología, lo que permite formas nuevas y profundas de experimentar e interpretar el mundo.

Fuente