Primeras impresiones de OpenAI o1: Una IA diseñada para pensar demasiado

OpenAI lanzó su nuevos modelos o1 El jueves, los usuarios de ChatGPT tuvieron la primera oportunidad de probar modelos de IA que se detienen a “pensar” antes de responder. Se generó mucha expectativa en torno a estos modelos, cuyo nombre en código es “Strawberry” dentro de OpenAI. Pero, ¿Strawberry está a la altura de las expectativas?

Más o menos.

En comparación con GPT-4o, los modelos o1 parecen un paso adelante y dos atrás. OpenAI o1 se destaca en el razonamiento y la respuesta a preguntas complejas, pero el modelo es aproximadamente cuatro veces más costoso de usar que GPT-4o. El último modelo de OpenAI carece de las herramientas, las capacidades multimodales y la velocidad que hicieron que GPT-4o fuera tan impresionante. De hecho, OpenAI incluso admite que “GPT-4o sigue siendo la mejor opción para la mayoría de los mensajes” en su página de ayuda y señala en otros lugares que o1 tiene dificultades para realizar tareas más simples.

“Es impresionante, pero creo que la mejora no es muy significativa”, dijo Ravid Shwartz Ziv, profesor de la Universidad de Nueva York que estudia modelos de IA. “Es mejor en ciertos problemas, pero no se observa esta mejora generalizada”.

Por todas estas razones, es importante utilizar o1 solo para las preguntas para las que realmente está diseñado: las grandes. Para ser claros, la mayoría de las personas no utilizan la IA generativa para responder este tipo de preguntas hoy en día, en gran medida porque los modelos de IA actuales no son muy buenos en eso. Sin embargo, o1 es un paso tentativo en esa dirección.

Pensando en grandes ideas

OpenAI o1 es único porque “piensa” antes de responder, descomponiendo los grandes problemas en pequeños pasos e intentando identificar cuándo acierta o no en uno de esos pasos. Este “razonamiento de múltiples pasos” no es completamente nuevo (los investigadores lo han propuesto durante años y You.com Lo usa para consultas complejas), pero hasta hace poco no era práctico.

“Hay mucho entusiasmo en la comunidad de IA”, dijo en una entrevista el director ejecutivo de Workera y profesor adjunto de Stanford, Kian Katanforoosh, que imparte clases sobre aprendizaje automático. “Si puedes entrenar un algoritmo de aprendizaje de refuerzo junto con algunas de las técnicas de modelos de lenguaje que tiene OpenAI, técnicamente puedes crear un pensamiento paso a paso y permitir que el modelo de IA retroceda a partir de las grandes ideas que estás tratando de resolver”.

OpenAI o1 también es excepcionalmente caro. En la mayoría de los modelos, pagas por tokens de entrada y tokens de salida. Sin embargo, o1 agrega un proceso oculto (los pequeños pasos en los que el modelo divide los grandes problemas), lo que agrega una gran cantidad de computación que nunca ves por completo. OpenAI oculta algunos detalles de este proceso para mantener su ventaja competitiva. Dicho esto, aún te cobran por ellos en forma de “tokens de razonamiento”. Esto enfatiza aún más por qué debes tener cuidado al usar OpenAI o1, para que no te cobren una tonelada de tokens por preguntar dónde está la capital de Nevada.

Sin embargo, la idea de un modelo de IA que ayude a “caminar hacia atrás a partir de las grandes ideas” es poderosa. En la práctica, el modelo es bastante bueno en eso.

En un ejemplo, le pedí a ChatGPT o1 preview que ayudara a mi familia a planificar el Día de Acción de Gracias, una tarea que podría beneficiarse de un poco de lógica y razonamiento imparcial. En concreto, quería ayuda para determinar si dos hornos serían suficientes para cocinar una cena de Acción de Gracias para 11 personas y quería hablar sobre si deberíamos considerar alquilar un Airbnb para tener acceso a un tercer horno.

(Maxwell Zeff/OpenAI)
(Maxwell Zeff/OpenAI)

Después de 12 segundos de “pensar”, ChatGPT me escribió una respuesta de más de 750 palabras en la que me decía que dos hornos deberían ser suficientes con una estrategia cuidadosa y que le permitirían a mi familia ahorrar costos y pasar más tiempo juntos. Pero me explicó en detalle su razonamiento en cada paso del proceso y cómo tuvo en cuenta todos estos factores externos, incluidos los costos, el tiempo en familia y la gestión del horno.

La vista previa de ChatGPT o1 me indicó cómo priorizar el espacio del horno en la casa donde se realizará el evento, lo cual fue inteligente. Curiosamente, me sugirió que considerara alquilar un horno portátil para el día. Dicho esto, el modelo funcionó mucho mejor que GPT-4o, que requirió múltiples preguntas de seguimiento sobre qué platos exactos llevaría y luego me dio consejos básicos que me resultaron menos útiles.

Preguntar sobre la cena de Acción de Gracias puede parecer una tontería, pero puedes ver cómo esta herramienta podría ser útil para desglosar tareas complicadas.

También le pedí a o1 que me ayudara a planificar un día ajetreado en el trabajo, en el que tenía que viajar entre el aeropuerto, varias reuniones en persona en varios lugares y mi oficina. Me dio un plan muy detallado, pero tal vez fue un poco excesivo. A veces, todos los pasos adicionales pueden resultar un poco abrumadores.

Para una pregunta más simple, o1 hace demasiado: no sabe cuándo dejar de pensar demasiado. Le pregunté dónde se pueden encontrar cedros en Estados Unidos y me dio una respuesta de más de 800 palabras, en la que describía todas las variantes de cedros que hay en el país, incluido su nombre científico. Incluso tuvo que consultar las políticas de OpenAI en algún momento, por alguna razón. GPT-4o respondió mucho mejor a esta pregunta, y me dio unas tres oraciones en las que explicaba que se pueden encontrar los árboles en todo el país.

Moderar las expectativas

En cierto modo, Strawberry nunca iba a estar a la altura de las expectativas. Los informes sobre los modelos de razonamiento de OpenAI se remontan a noviembre de 2023, justo en la época en que todo el mundo buscaba una respuesta sobre por qué la junta directiva de OpenAI despidió a Sam Altman. Eso hizo que se dispararan los rumores en el mundo de la IA, lo que llevó a algunos a especular que Strawberry era una forma de IAG, la versión iluminada de la IA que OpenAI aspira a crear en última instancia.

Altman confirmado o1 no es AGI para aclarar cualquier duda, no es que te confundas después de usar el dispositivo. El CEO también redujo las expectativas en torno a este lanzamiento, tuiteando que “o1 todavía tiene defectos, sigue siendo limitado y todavía parece más impresionante en el primer uso que después de pasar más tiempo con él”.

El resto del mundo de la IA está afrontando un lanzamiento menos emocionante de lo esperado.

“El revuelo se fue más allá del control de OpenAI”, dijo Rohan Pandey, ingeniero de investigación de la empresa emergente de inteligencia artificial ReWorkd, que crea raspadores web con los modelos de OpenAI.

Espera que la capacidad de razonamiento de o1 sea lo suficientemente buena como para resolver un conjunto específico de problemas complicados en los que GPT-4 no está a la altura. Es probable que así es como la mayoría de la gente de la industria ve a o1, pero no exactamente como el avance revolucionario que GPT-4 representó para la industria.

“Todo el mundo está esperando un cambio radical en las capacidades, y no está claro que esto lo represente. Creo que es así de simple”, dijo en una entrevista Mike Conover, director ejecutivo de Brightwave y cocreador del modelo de inteligencia artificial Dolly de Databricks.

¿Cual es el valor aquí?

Los principios subyacentes utilizados para crear o1 se remontan a años atrás. Google utilizó técnicas similares en 2016 para crear AlphaGo, el primer sistema de IA que derrotó a un campeón mundial del juego de mesa Go, señala Andy Harrison, ex empleado de Google y director ejecutivo de la empresa de capital de riesgo S32. AlphaGo se entrenó jugando contra sí mismo innumerables veces, en esencia, aprendiendo por sí mismo hasta que alcanzó una capacidad sobrehumana.

Señala que esto plantea un viejo debate en el mundo de la IA.

“El bando uno piensa que se pueden automatizar los flujos de trabajo a través de este proceso agente. El bando dos piensa que si se tuviera inteligencia y razonamiento generalizados, no se necesitaría el flujo de trabajo y, como un ser humano, la IA simplemente emitiría un juicio”, dijo Harrison en una entrevista.

Harrison dice que está en el campo uno y que el campo dos requiere que confíes en que la IA tome la decisión correcta. No cree que estemos ahí todavía.

Sin embargo, otros piensan en o1 menos como un tomador de decisiones y más como una herramienta para cuestionar tu forma de pensar sobre decisiones importantes.

Katanforoosh, el director ejecutivo de Workera, describió un ejemplo en el que iba a entrevistar a un científico de datos para trabajar en su empresa. Le dice a OpenAI o1 que solo tiene 30 minutos y quiere evaluar una cierta cantidad de habilidades. Puede trabajar al revés con el modelo de IA para comprender si está pensando en esto correctamente, y o1 comprenderá las limitaciones de tiempo y demás.

La pregunta es si esta útil herramienta vale el alto precio que cuesta. A medida que los modelos de IA se vuelven cada vez más baratos, o1 es uno de los primeros modelos de IA que hemos visto encarecerse en mucho tiempo.

Fuente