El largo camino hacia el dominio genuino de la IA

IA principios de la década de 1970, programar computadoras implicaba perforar agujeros en tarjetas e introducirlas en máquinas del tamaño de una habitación que producirían resultados a través de una impresora de línea, a menudo horas o incluso días después.

Así era la informática desde hacía mucho tiempo, y fue en ese contexto que un equipo de 29 científicos e investigadores del famoso Xerox PARC creó la forma más íntima de informática que conocemos hoy: una con pantalla, teclado y ratón. Esta computadora, llamada Alto, era tan sorprendentemente diferente que hizo necesario un nuevo término: Computación interactiva.

Algunos consideraban que Alto era absurdamente extravagante debido a sus costosos componentes. Pero cincuenta años después, han surgido cadenas de suministro multimillonarias que transforman arenas ricas en sílice en computadoras sofisticadas y maravillosas que viven en nuestros bolsillos. La informática interactiva ahora está inextricablemente entretejida en la trama de nuestras vidas.

Silicon Valley está nuevamente en las garras de un fervor que recuerda a los días embriagadores de la informática temprana. La inteligencia artificial general (IAG), un término general que designa la capacidad de un sistema de software para resolver cualquier problema sin instrucciones específicas, se ha convertido en una revolución tangible casi a la vuelta de la esquina.

Los rápidos avances en la IA generativa inspiran asombro, y con razón. Así como la Ley de Moore trazó la trayectoria de la informática personal y la Ley de Metcalfe predijo el crecimiento de Internet, un principio exponencial subyace al desarrollo de la IA generativa. Las leyes de escalabilidad del aprendizaje profundo postulan una correlación directa entre las capacidades de un modelo de IA y la escala tanto del modelo en sí como de los datos utilizados para entrenarlo.

En los últimos dos años, los modelos de IA líderes han experimentado un asombroso aumento de 100 veces en ambas dimensiones, y los tamaños de los modelos se han expandido de 10 mil millones de parámetros entrenados en 100 mil millones de palabras a 1 billón de parámetros entrenados en más de 10 billones de palabras.

Los resultados son evocadores y útiles, pero la evolución de la informática personal ofrece una lección saludable. La trayectoria desde el Alto hasta el iPhone fue un camino largo y tortuoso. El desarrollo de sistemas operativos robustos, ecosistemas de aplicaciones vibrantes e Internet en sí fueron hitos cruciales, cada uno de los cuales dependió de otras subinvenciones e infraestructuras: lenguajes de programación, redes celulares, centros de datos y la creación de industrias de seguridad, software y servicios, entre otros.

La IA se beneficia de gran parte de esta infraestructura, pero también supone un cambio importante. Por ejemplo, los grandes modelos lingüísticos (LLM) destacan en la comprensión y generación de lenguaje, pero tienen dificultades con las capacidades de razonamiento, que son cruciales para abordar tareas complejas de varios pasos. Sin embargo, resolver este desafío puede requerir la creación de nuevas arquitecturas de redes neuronales o nuevos enfoques para entrenarlas y usarlas, y el ritmo al que la academia y la investigación están generando nuevos conocimientos sugiere que estamos en las primeras etapas.

El entrenamiento y el mantenimiento de estos modelos, algo en lo que nos centramos en Together AI, es a la vez una maravilla computacional y un atolladero. Las supercomputadoras de IA a medida, o clústeres de entrenamiento, creadas principalmente por Nvidia, representan la vanguardia del diseño de silicio. Estos sistemas, compuestos por decenas de miles de procesadores de alto rendimiento interconectados a través de redes ópticas avanzadas, funcionan como una supercomputadora unificada. Sin embargo, su funcionamiento tiene un coste significativo: consumen un orden de magnitud más de energía y generan una cantidad equivalente de calor en comparación con las CPU tradicionales. Las consecuencias están lejos de ser triviales. Un artículo reciente publicado por Meta, que detalla el proceso de entrenamiento de la familia de modelos Llama 3.1 en un clúster de 16.000 procesadores, reveló una estadística sorprendente: el sistema estuvo inoperativo durante un asombroso 69% de su tiempo operativo.

A medida que la tecnología de silicio siga avanzando de acuerdo con la Ley de Moore, se necesitarán innovaciones para optimizar el rendimiento de los chips, minimizando al mismo tiempo el consumo de energía y mitigando la generación de calor que esto conlleva. Para 2030, los centros de datos podrían experimentar una transformación radical, lo que requerirá avances fundamentales en la infraestructura física subyacente de la computación.

La IA ya se ha convertido en un ámbito geopolíticamente cargado y es probable que su importancia estratégica se intensifique, convirtiéndose en un factor determinante de la preeminencia tecnológica en los próximos años. A medida que mejore, los efectos transformadores de la IA en la naturaleza del trabajo y el mercado laboral también están a punto de convertirse en una cuestión social cada vez más polémica.

Pero todavía queda mucho por hacer, y la IA es nuestra herramienta para dar forma a nuestro futuro. En los próximos años, debemos esperar una proliferación de productos y servicios digitales innovadores que cautivarán y empoderarán a los usuarios. A largo plazo, la inteligencia artificial florecerá en sistemas superinteligentes, y estos estarán tan inextricablemente entrelazados con nuestras vidas como lo ha logrado la informática. Las sociedades humanas han absorbido nuevas tecnologías disruptivas a lo largo de milenios y se han rehecho para prosperar con su ayuda, y la inteligencia artificial no será una excepción.

Fuente