John J. Hopfield y Geoffrey Hinton recibió el premio nobel de física el 8 de octubre de 2024, por su investigación sobre Algoritmos de aprendizaje automático y redes neuronales que ayudan a las computadoras a aprender.. Su trabajo ha sido fundamental en el desarrollo de teorías de redes neuronales que sustentan la inteligencia artificial generativa.
Una red neuronal es un modelo computacional que consta de capas de neuronas interconectadas. como el neuronas en tu cerebroestas neuronas procesan y envían una información. Cada capa neuronal recibe un dato, lo procesa y pasa el resultado a la siguiente capa. Al final de la secuencia, la red ha procesado y refinado los datos para convertirlos en algo más útil.
Si bien puede parecer sorprendente que Hopfield y Hinton recibieran el premio de física por sus contribuciones a las redes neuronales, que se utilizan en informática, su trabajo está profundamente arraigado en los principios de la física, en particular en un subcampo llamado mecánica estadística.
Como computacional científico de materialesMe emocionó ver que esta área de investigación fuera reconocida con el premio. El trabajo de Hopfield y Hinton nos ha permitido a mis colegas y a mí estudiar un proceso llamado aprendizaje generativo para las ciencias de materiales, un método que está detrás de muchas tecnologías populares como ChatGPT.
¿Qué es la mecánica estadística?
La mecánica estadística es una rama de la física que utiliza métodos estadísticos para explicar el comportamiento de sistemas formados por una gran cantidad de partículas.
En lugar de centrarse en partículas individuales, los investigadores que utilizan la mecánica estadística observan el comportamiento colectivo de muchas partículas. Ver cómo actúan todos juntos ayuda a los investigadores a comprender las propiedades macroscópicas a gran escala del sistema, como la temperatura, la presión y la magnetización.
Por ejemplo, físico ernst ising desarrolló un modelo de mecánica estadística para el magnetismo en la década de 1920. Considerando el magnetismo imaginado como el comportamiento colectivo de espines atómicos interactuando con sus vecinos.
En el modelo de Isinghay estados de energía más altos y más bajos para el sistema, y es más probable que el material exista en el estado de energía más bajo.
Una idea clave en la mecánica estadística es la Distribución Boltzmannque cuantifica la probabilidad de que se produzca un estado determinado. Esta distribución describe la probabilidad de que un sistema se encuentre en un estado particular (como sólido, líquido o gaseoso) en función de su energía y temperatura.
Ising predijo exactamente la transición de fase de un imán utilizando la distribución de Boltzmann. Calculó la temperatura a la que el material pasaba de ser magnético a no magnético.
Los cambios de fase ocurren a temperaturas predecibles. El hielo se derrite hasta convertirse en agua a una temperatura específica porque la distribución de Boltzmann predice que cuando se calienta, es más probable que las moléculas de agua adopten un estado desordenado (o líquido).
En los materiales, los átomos se organizan en estructuras cristalinas específicas que utilizan la menor cantidad de energía. Cuando hace frío, las moléculas de agua se congelan formando cristales de hielo con estados de baja energía.
De manera similar, en biología, Las proteínas se pliegan en formas de baja energía.que les permiten funcionar como anticuerpos específicos, como una cerradura y una llave, dirigidos a un virus.
Redes neuronales y mecánica estadística.
Básicamente, todas las redes neuronales funcionan según un principio similar: minimizar la energía. Las redes neuronales utilizan este principio. para resolver problemas computacionales.
Por ejemplo, imagina una imagen formada por píxeles donde solo puedes ver una parte de la imagen. Algunos píxeles son visibles, mientras que el resto están ocultos. Para determinar qué es la imagen, considere todas las formas posibles en que los píxeles ocultos podrían encajar con las piezas visibles. A partir de ahí, elegirías entre los que la mecánica estadística diría que son los estados más probables entre todas las opciones posibles.
Hopfield y Hinton desarrollaron una teoría de redes neuronales basada en la idea de la mecánica estadística. Al igual que Ising antes que ellos, que modeló la interacción colectiva de espines atómicos para resolver el problema de la fotografía con una red neuronal, Hopfield y Hinton imaginaron interacciones colectivas de píxeles. Representaron estos píxeles como neuronas.
Al igual que en física estadística, la energía de una imagen se refiere a la probabilidad de que exista una configuración particular de píxeles. Una red Hopfield resolvería este problema encontrando las disposiciones de menor energía de los píxeles ocultos.
Sin embargo, a diferencia de la mecánica estadística (donde la energía está determinada por interacciones atómicas conocidas), las redes neuronales aprenden estas energías a partir de los datos.
Hinton Popularizó el desarrollo de una técnica llamada retropropagación.. Esta técnica ayuda al modelo a determinar las energías de interacción entre estas neuronas, y este algoritmo sustenta gran parte del aprendizaje moderno de la IA.
La máquina de Boltzmann
Basándose en el trabajo de Hopfield, Hinton imaginó otra red neuronal llamada máquina de Boltzmann. Consta de neuronas visibles, que podemos observar, y neuronas ocultas, que ayudan a la red a aprender patrones complejos.
En una máquina de Boltzmann, puedes determinar la probabilidad de que la imagen se vea de cierta manera. Para calcular esta probabilidad, puede resumir todos los estados posibles en los que podrían estar los píxeles ocultos. Esto le brinda la probabilidad total de que los píxeles visibles estén en una disposición específica.
Mi grupo ha trabajado en Implementación de máquinas Boltzmann en computadoras cuánticas para el aprendizaje generativo.
En el aprendizaje generativo, la red aprende a generar nuevas muestras de datos que se asemejan a los datos que los investigadores alimentaron a la red para entrenarla. Por ejemplo, podría generar nuevas imágenes de números escritos a mano después de haber sido entrenado con imágenes similares. La red puede generarlos mediante muestreo de la distribución de probabilidad aprendida.
El aprendizaje generativo sustenta la IA moderna: es lo que permite la generación de Arte, vídeos y texto con IA.
Hopfield y Hinton han influido significativamente en la investigación de la IA aprovechando herramientas de la física estadística. Su trabajo establece paralelismos entre cómo la naturaleza determina los estados físicos de un material y cómo las redes neuronales predicen la probabilidad de soluciones a problemas complejos de informática.
Este artículo fue publicado originalmente en La conversación por Veera Sundararaghavan de la Universidad de Michigan. Lea el artículo original aquí.