Este artículo fue publicado originalmente por Revista Quanta.
Una imagen puede valer más que mil palabras, pero ¿cuántos números vale una palabra? La pregunta puede parecer tonta, pero resulta que es la base que subyace a los grandes modelos de lenguaje, o LLM, y, a través de ellos, a muchas aplicaciones modernas de la inteligencia artificial.
Cada LLM tiene su propia respuesta. En el modelo Llama 3 de código abierto de Meta, las palabras se dividen en tokens representados por 4.096 números; para una versión de GPT-3, es 12.288. Individualmente, estas largas listas numéricas, conocidas como “incrustaciones”, son simplemente cadenas inescrutables de dígitos. Pero en conjunto, codifican relaciones matemáticas entre palabras que pueden parecerse sorprendentemente a su significado.
La idea básica detrás de la incrustación de palabras tiene décadas de antigüedad. Para modelar el lenguaje en una computadora, comience tomando cada palabra del diccionario y haciendo una lista de sus características esenciales; cuántas depende de usted, siempre y cuando sea la misma para cada palabra. “Casi puedes considerarlo como un juego de 20 preguntas”, dice Ellie Pavlickun científico informático que estudia modelos de lenguaje en la Universidad de Brown y Google DeepMind. “Animal, vegetal, objeto: las características pueden ser cualquier cosa que la gente considere útil para distinguir conceptos”. Luego asigne un valor numérico a cada característica de la lista. la palabra perropor ejemplo, obtendría una puntuación alta en “peludo” pero baja en “metálico”. El resultado incorporará las asociaciones semánticas de cada palabra y su relación con otras palabras en una cadena única de números.
Los investigadores alguna vez especificaron estas incrustaciones a mano, pero ahora se generan automáticamente. Por ejemplo, las redes neuronales pueden entrenarse para agrupar palabras (o, técnicamente, fragmentos de texto llamados “tokens”) según características que la red define por sí misma. “Tal vez una característica separa muy bien los sustantivos y los verbos, y otra separa las palabras que tienden a aparecer después de un punto de las palabras que no aparecen después de un punto”, dice Pavlick.
La desventaja de estas incorporaciones aprendidas por máquinas es que, a diferencia de un juego de 20 preguntas, muchas de las descripciones codificadas en cada lista de números no son interpretables por los humanos. “Parece ser una caja de sorpresas llena de cosas”, dice Pavlick. “La red neuronal puede simplemente crear características de cualquier manera que ayuden”.
Pero cuando una red neuronal es entrenada en una tarea particular llamada modelado del lenguaje (que aquí implica predecir la siguiente palabra en una secuencia), las incorporaciones que aprende son cualquier cosa menos arbitrarias. Como limaduras de hierro alineadas bajo un campo magnético, los valores se fijan de tal manera que las palabras con asociaciones similares tienen incrustaciones matemáticamente similares. Por ejemplo, las incrustaciones para perro y gato serán más similares que los de perro y silla.
Este fenómeno puede hacer que las incrustaciones parezcan misteriosas, incluso mágicas: una red neuronal que de alguna manera transmuta números brutos en significado lingüístico, “como convertir paja en oro”, dice Pavlick. Famoso ejemplos de “aritmética de palabras”—rey menos hombre más mujer aproximadamente igual reina—Solo han mejorado el aura alrededor de las incrustaciones. Parecen actuar como un depósito rico y flexible de lo que un LLM “sabe”.
Pero este supuesto conocimiento no se parece en nada a lo que encontraríamos en un diccionario. En cambio, es más como un mapa. Si imagina cada incorporación como un conjunto de coordenadas en un mapa de alta dimensión compartido por otras incorporaciones, verá aparecer ciertos patrones. Ciertas palabras se agruparán, como suburbios abrazando una gran ciudad. Y de nuevo, perro y gato tendrá más coordenadas similares que perro y silla.
Pero a diferencia de los puntos de un mapa, estas coordenadas sólo se refieren entre sí, no a ningún territorio subyacente, del mismo modo que los números de latitud y longitud indican puntos específicos de la Tierra. En cambio, las incrustaciones para perro o gato Se parecen más a coordenadas en el espacio interestelar: no tienen sentido, excepto por lo cerca que están de otros puntos conocidos.
Entonces, ¿por qué las incrustaciones para perro y gato ¿tan parecidos? Es porque aprovechan algo que los lingüistas saben desde hace décadas: las palabras utilizadas en contextos similares tienden a tener significados similares. En la secuencia “Contraté a un cuidador de mascotas para alimentar a mi ____”, la siguiente palabra podría ser perro o gatopero probablemente no lo sea silla. No necesitas un diccionario para determinar esto, solo estadísticas.
Las incrustaciones (coordenadas contextuales, basadas en esas estadísticas) son la forma en que un LLM puede encontrar un buen punto de partida para hacer sus predicciones de la siguiente palabra, sin depender de definiciones.
Ciertas palabras en ciertos contextos encajan mejor que otras, a veces con tanta precisión que literalmente ninguna otra palabra sirve. (Imagínese terminar la frase “El actual presidente de Francia se llama ____”). Según muchos lingüistas, una gran parte de la razón por la que los humanos podemos discernir con precisión este sentido de adecuación es porque no sólo relacionamos palabras entre sí, sino que en realidad saber a qué se refieren, como territorio en un mapa. Los modelos de lenguaje no lo hacen, porque las incrustaciones no funcionan de esa manera.
Aún así, como sustituto del significado semántico, las incrustaciones han demostrado ser sorprendentemente efectivas. Es una de las razones por las que los grandes modelos lingüísticos han pasado rápidamente a la vanguardia de la IA. Cuando estos objetos matemáticos encajan de una manera que coincide con nuestras expectativas, se siente como inteligencia; cuando no es así, lo llamamos “alucinación”. Sin embargo, para el LLM no hay diferencia. Son sólo listas de números, perdidos en el espacio.