A medida que se intensifica la competencia entre grandes empresas de inteligencia artificial, el repositorio Hugging Face se ha convertido en un raro punto de terreno neutral. Creado como un centro de intercambio de información al estilo de GitHub para conjuntos y modelos de datos de código abierto, el sitio se ha convertido en un recurso vital para cualquiera que trabaje en IA. Sin el bagaje regulatorio de un gigante como Meta o Google, Hugging Face también se ha convertido en una voz de la razón en el mundo de las políticas, asesorando a los reguladores de todo el mundo sobre la promesa y el riesgo únicos de la IA, mientras lidera su propio trabajo técnico sobre evaluación de sesgos y marca de agua.

La jefa de política global de la empresa, Irene Solaiman, está en el centro de ese trabajo. Solaiman, exgerente de políticas públicas de OpenAI, fue la primera persona en probar ChatGPT para detectar sesgos de impacto social. Ahora, su equipo en Hugging Face está asesorando a los reguladores desde EE. UU. hasta la Unión Europea sobre la mejor manera de abordar la naciente industria de la IA y cómo sortear cuestiones espinosas de sesgo, consentimiento y riesgo existencial en el camino.

Resto del mundo Habló con Solaiman sobre la promesa y el riesgo de la nueva generación de grandes modelos de lenguaje y cómo construirlos teniendo en cuenta al resto del mundo.

Esta entrevista ha sido editada para mayor extensión y claridad.


Quiero comenzar con el mayor escándalo de IA del mes, que es la demanda entre Scarlett Johansson y OpenAI. Parece un caso alarmante para los profesionales de las políticas de IA. ¿Hay algo que le haya sorprendido del caso?

En el aspecto legal, la mayor implicación que veo es establecer precedentes para acciones futuras. Existe la pregunta de hasta qué punto Scarlett Johansson tiene derecho a parecerse como actriz de doblaje. Pero no ha existido ningún caso explícitamente como este, por lo que descubriremos a medida que las cosas se desarrollen qué podemos esperar en el futuro.

Al mismo tiempo, todo el caso saca a la luz las conexiones emocionales que las personas tienen con la IA. Hay muchas novias AI por ahí. Particularmente novias y no novios. No soy psicólogo, pero creo que eso tiene serias implicaciones sobre cómo nos involucramos con la IA en una epidemia de soledad.

Usted ha dicho antes que en realidad le clonaron su voz sin su consentimiento, como parte de una demostración de producto que resultó contraproducente. ¿Crees que hay un problema mayor con la forma en que el mundo tecnológico piensa sobre el consentimiento?

Parte de esto son solo las herramientas: estamos muy por detrás de lo que necesitamos en cuanto a poder clasificar estas cantidades masivas de datos de entrenamiento. Y eso surge cuando piensas en el consentimiento, pero también en la precisión.

Entonces, cuando cloné mi voz, la plataforma dice que es necesario obtener el consentimiento del interesado. Pero la aplicación es sólo una pequeña casilla de verificación que dice: “Recibí el consentimiento”. Y a veces resulta ambiguo quién es el propietario del vídeo o quién está en condiciones de dar su consentimiento. En mi caso, los datos de capacitación provenían de un video público de una charla que había dado; en realidad, una charla sobre la importancia de obtener el consentimiento de los interesados.

El sesgo se ha convertido en uno de los problemas más complicados en el desarrollo de la IA. Por un lado, hemos informado sobre el efecto estereotipado en modelos de generación de imágenes. Por otro lado, Google acabó disculpándose públicamente para el generador de imágenes de Gemini después de que introdujo una variedad de géneros y etnias en consultas donde esa diversidad no tenía sentido. ¿Hay alguna manera de manejar esto que tenga sentido? ¿O las empresas seguirán tropezando con problemas políticos aquí?

Entonces, una parte importante es ir más allá de los modelos hacia un sistema más amplio. Los generadores de imágenes como Gemini son, por defecto, increíblemente visuales. Y aunque no puedo decir específicamente cómo se construyó Gemini, creo que es poco probable que la gente esté impulsando directamente el modelo. Hay capas de sistemas que vienen con la forma en que las personas interactúan con un producto de cara al consumidor. Es realmente difícil encontrar dónde se introducen los sesgos. Y probablemente la respuesta sea, en todos los puntos. Pero esto es parte de por qué la gente está invirtiendo en evaluaciones, interpretabilidad y formación de equipos rojos.

Cuando miras el sistema completo, también incluye el conjunto de datos. He dicho durante algún tiempo que necesitamos darle mucho más glamour a la investigación de conjuntos de datos. No es mi zona, pero Dr. Abeba Birhane ha realizado algunos de los mejores trabajos mirando conjuntos de datos multimodales.

Debido a que se basa en datos creados por seres humanos, muchos de ellos se reducen a amplificar las normas sociales existentes. Entonces, ¿qué proporción es representativa? ¿Estamos sobreindexando una población específica, su historia y su infraestructura? Al final, nunca se puede ser completamente imparcial porque las perspectivas diferirán, especialmente en todo el mundo, pero incluso dentro de un país, una ciudad o una familia. Lo que considero imparcial puede parecer muy diferente para alguien con creencias políticas diferentes, con una educación diferente.

Aquí es donde la IA enfrenta algunos paralelismos similares con las redes sociales. Recuerdo haber discutido estos temas con plataformas de redes sociales hace 10 años. ¿Cómo tratamos las normas existentes? No queremos hacer ingeniería social, pero si sólo estás amplificando las normas existentes, ¿no sigue siendo eso un tipo de ingeniería social? La mayoría de estos problemas no son específicos de la IA, pero la forma en que los construimos, medimos y mitigamos parece muy diferente en un contexto de IA.

El caso de Gemini se centró en la imagen, pero imagino que es aún más complicado en el texto, que es donde se está produciendo aún más desarrollo de la IA.

Bien, la forma en que reaccionamos para consumir, medir y mitigar sesgos y estereotipos es bastante diferente en imagen que lo que haríamos en texto. Hice la primera prueba de estereotipos de sesgo de impacto social en sistemas OpenAI hace mucho tiempo. Hice la primera prueba de caracteres no latinos en sistemas OpenAI y GPT. Lo hice en bengalí (bengalí) porque era el único idioma que conocía que no usaba caracteres latinos. Es decir, la representación importa.

“Hay tanta infraestructura que hace que haya más datos disponibles en idiomas específicos, incluso hasta los teclados para los que se creó Internet”.

También está la cuestión de los idiomas de bajos recursos. Hemos visto modelos que realmente tienen dificultades con las operaciones básicas en idiomas como el bengalí y el tamil, simplemente porque no hay suficiente texto en línea para entrenar. ¿Qué opinas de ese tipo de prejuicio?

Esto es particularmente cercano a mi corazón. Aprendí mi idioma heredado, el bengalí, cuando era adulto y se deriva del sánscrito. Y aprendí lo difícil que es empezar a entender el guión. Hay 56 caracteres y cambian y no se traduce bien en un teclado. Internet se creó originalmente en el mundo occidental y gran parte se creó para caracteres latinos, específicamente ingleses. Hay tanta infraestructura que hace que haya más datos disponibles en idiomas específicos, incluso hasta los teclados para los que se creó Internet.

Algo que aprendí este año es que en realidad es más costoso entrenar y generar idiomas distintos del inglés. Está pagando un precio más alto por procesar cada unidad de datos, especialmente los idiomas con caracteres no latinos. Pero eso está mejorando mucho a medida que bajan los costos. OpenAI con su último lanzamiento GPT-4o ha mostrado enormes reducciones en el costo de la tokenización para muchos idiomas índicos. Cohere Command R también anunció reducir a la mitad el costo de la tokenización para muchos idiomas. A menudo la gente no informa ni mide el costo financiero. Pero ya sabes, el dinero es un gran problema.

También hemos visto que ciertas comunidades retienen activamente datos de capacitación. Informamos específicamente sobre un grupo de escritores en Singapur quienes se negaron a poner a disposición su trabajo, por temor a que el modelo resultante fuera utilizado en su contra. ¿Crees que acciones como estas son efectivas o simplemente amplían la brecha entre las lenguas de altos y bajos recursos?

Creo que esta es una de las preguntas más difíciles. Adoro Singapur. Allí conocí a mi prometido. Creo que el singlish es un idioma maravillosamente rico y tiene sentido que los autores tengan derecho a optar por no participar, porque ese es su trabajo. Pero todo se vuelve mucho más confuso cuando llegamos a la cuestión de quién representa realmente el idioma.

Hemos visto esto en algunas comunidades indígenas. Por ejemplo, hace un par de años, un representante de la comunidad maorí se pronunció en contra de los modelos de enseñanza del idioma y su venta al pueblo maorí. Pero poco después, otro grupo y la comunidad maorí entrenaron su propio modelo lingüístico y prefirieron tener plena propiedad. Entonces creo que parte de la pregunta aquí es: ¿quién posee el idioma y quién puede beneficiarse de él?

India es otro caso interesante. De hecho, el gobierno indio está trabajando para financiar más conjuntos de datos en idioma indio para la IA a través de su programa Bhashini. Y Hugging Face está trabajando con ellos en un modelo de código abierto en idioma hinglish. Estamos haciendo más evaluaciones, por eso lanzamos una tabla de clasificación de evaluaciones en árabe y coreano. Y creo que la señalización puede ayudar a impulsar a las personas no solo a capacitarse, sino también a medir el desempeño en todos los idiomas.

Fuente