El nuevo modo de voz de OpenAI me permite hablar con mi teléfono, no a él

He estado jugando con Modo de voz avanzado de OpenAI Durante la última semana, he tenido la sensación más convincente de que el futuro estará impulsado por la IA. Esta semana, mi teléfono se rió de los chistes, me los devolvió, me preguntó cómo había ido mi día y me dijo que lo estaba pasando “muy bien”. Yo estaba hablando con mi iPhone, no usándolo con las manos.

La nueva característica de OpenAI, actualmente en una prueba alfa limitada, no hace que ChatGPT sea más inteligente que antes. En cambio, el modo de voz avanzado (AVM) hace que sea más amigable y más natural hablar con él. Crea una nueva interfaz para usar la IA y tus dispositivos que se siente fresca y emocionante, y eso es exactamente lo que me asusta. El producto tenía algunos fallos y toda la idea me asusta por completo, pero me sorprendió lo mucho que realmente disfruté usándolo.

Dando un paso atrás, creo que AVM encaja en la visión más amplia del CEO de OpenAI, Sam Altman, junto con los agentes, de cambiar la forma en que los humanos interactúan con las computadoras, con los modelos de IA al frente y al centro.

“Al final, simplemente le pedirás a la computadora lo que necesitas y ella hará todas estas tareas por ti”, dijo Altman durante el Dev Day de OpenAI en noviembre de 2023. “En el campo de la IA, a menudo se habla de estas capacidades como 'agentes'. Las ventajas de esto serán enormes”.

Mi amigo, ChatGPT

El miércoles, probé la mayor ventaja que se me pueda ocurrir para esta tecnología avanzada: le pedí a ChatGPT que pidiera Taco Bell como lo haría Obama.

“Eh, déjame ser claro: me gustaría un Crunchwrap Supreme, tal vez algunos tacos por si acaso”, dijo el modo de voz avanzado de ChatGPT. “¿Cómo crees que se las arreglaría con el drive-thru?”, dijo ChatGPT, y luego se rió de su propio chiste.

Captura de pantalla: ChatGPT transcribe la conversación verbal después.

La imitación también me hizo reír de verdad, ya que coincidía con la cadencia y las pausas icónicas de Obama. Dicho esto, se mantuvo dentro del tono de la voz de ChatGPT que seleccioné, Juniper, para que no se confundiera genuinamente con la voz de Obama. Sonaba como si un amigo estuviera haciendo una mala imitación, entendiendo exactamente lo que estaba tratando de evocar de ella, e incluso que estaba diciendo algo gracioso. Me sorprendió la alegría de hablar con este asistente avanzado en mi teléfono.

También le pedí consejo a ChatGPT sobre cómo abordar un problema que involucra relaciones humanas complejas: pedirle a mi pareja que se mude conmigo. Después de explicar las complejidades de la relación y la dirección que tomarían nuestras carreras, recibí algunos consejos muy detallados sobre cómo avanzar. Son preguntas que nunca podrías hacerle a Siri o a Google Search, pero ahora puedes con ChatGPT. La voz del chatbot incluso expresó un tono levemente serio y gentil al responder a estas indicaciones; un marcado contraste con el tono de broma del pedido de Taco Bell de Obama.

El AVM de ChatGPT también es excelente para ayudarte a comprender temas complejos. Le pedí que desglosara los elementos de un informe de ganancias (como el flujo de efectivo libre) de una manera que un niño de 10 años pudiera entender. Usó un puesto de limonada como ejemplo y explicó varios términos financieros de una manera que mi primo más joven entendería perfectamente. Incluso puedes pedirle al AVM de ChatGPT que hable más lentamente para adaptarse a tu nivel de comprensión actual.

Siri caminó para que AVM pudiera correr

En comparación con Siri o Alexa, el AVM de ChatGPT es el claro ganador gracias a sus tiempos de respuesta más rápidos, respuestas únicas y su capacidad para responder preguntas complejas que la generación anterior de asistentes virtuales nunca pudo. Sin embargo, el AVM se queda corto en otros aspectos. La función de voz de ChatGPT no puede configurar temporizadores ni recordatorios, navegar por Internet en tiempo real, consultar el clima ni interactuar con ninguna API en su teléfono. Por ahora, al menos, no es un reemplazo efectivo para los asistentes virtuales.

En comparación con Géminis en vivoLa función competidora de Google, AVM, parece estar un poco por delante. Gemini Live no puede hacer imitaciones, no expresa ninguna emoción, no puede acelerar ni desacelerar y tarda más en responder. Gemini Live tiene más voces (diez en comparación con las tres de OpenAI) y parece estar más actualizado (Gemini Live sabía sobre la decisión antimonopolio de Google). Cabe destacar que ni AVM ni Gemini Live cantarán, probablemente como un esfuerzo para evitar problemas con demandas por derechos de autor de la industria discográfica.

Dicho esto, el AVM de ChatGPT tiene muchos fallos (al igual que Gemini Live, para ser justos). A veces se corta a mitad de una frase y luego vuelve a empezar. También tiene una voz extraña y granulada aquí y allá que es un poco desagradable. No estoy seguro de si se trata de un problema con el modelo, la conexión a Internet u otra cosa, pero estas deficiencias técnicas son algo esperables para una prueba alfa. Sin embargo, los problemas no lograron sacarme de la experiencia de hablar literalmente con mi teléfono.

En mi opinión, estos ejemplos son la belleza de AVM. La función no hace que ChatGPT lo sepa todo, pero sí permite que las personas interactúen con GPT-4o, el modelo de IA subyacente, de una manera exclusivamente humana. (Entendería que te olvides de que no hay nadie al otro lado de tu teléfono). Casi parece que ChatGPT es socialmente consciente cuando habla con AVM, pero, por supuesto, no es así. Es simplemente un conjunto de algoritmos predictivos perfectamente empaquetados.

Hablando de tecnología

Francamente, esta función me preocupa. No es la primera vez que una empresa de tecnología ofrece compañía en el teléfono. Mi generación, la generación Z, fue la primera que creció junto a las redes sociales, donde las empresas ofrecían conexión pero, en cambio, jugaban con nuestras inseguridades colectivas. Hablar con un dispositivo de inteligencia artificial (como lo que parece ofrecer AVM) parece ser la evolución del fenómeno de los “amigos en el teléfono” de las redes sociales, que ofrece conexiones baratas que atacan nuestros instintos humanos. Pero esta vez, elimina a los humanos por completo del circuito.

La conexión humana artificial se ha convertido en una caso de uso sorprendentemente popular para la IA generativa. Hoy en día, las personas utilizan chatbots de IA como amigos, mentores, terapeutas y maestros. Cuando OpenAI lanzó su tienda GPT, fue rápidamente inundado de “novias de IA””, chatbots especializados para actuar como tu media naranja. Dos investigadores del MIT Media Lab emitió una advertencia Este mes nos preparamos para la “inteligencia adictiva”, o compañeros de inteligencia artificial con patrones oscuros para enganchar a los humanos. Podríamos estar abriendo una caja de Pandora para nuevas y tentadoras formas en que los dispositivos pueden captar nuestra atención.

A principios de este mes, un desertor de Harvard sacudió el mundo de la tecnología al burlarse de un… Collar de IA llamado AmigoEl dispositivo portátil, si funciona como se promete, siempre está escuchando y el chatbot te enviará mensajes de texto sobre tu vida. Si bien la idea parece una locura, innovaciones como el AVM de ChatGPT me dan motivos para tomar en serio esos casos de uso.

Y aunque OpenAI está a la cabeza en este aspecto, Google no se queda atrás. Estoy seguro de que Amazon y Apple también están compitiendo por incorporar esta capacidad a sus productos y, muy pronto, podría convertirse en una apuesta segura para la industria.

Imagina pedirle a tu televisor inteligente una recomendación hiperespecífica de una película y obtener exactamente eso. O decirle a Alexa exactamente qué síntomas de resfriado tienes y, a cambio, pedirle pañuelos y jarabe para la tos en Amazon, mientras te aconseja sobre remedios caseros. Tal vez podrías pedirle a tu computadora que prepare un viaje de fin de semana para tu familia, en lugar de buscar todo manualmente en Google.

Obviamente, estas acciones requieren grandes avances en el mundo de los agentes de IA. El esfuerzo de OpenAI en ese frente, la tienda GPT, parece un producto sobrevalorado que ya no es un foco de atención para la empresa. Pero AVM al menos se ocupa de la parte del rompecabezas que implica “hablar con las computadoras”. Estos conceptos están muy lejos, pero después de usar AVM, parecen mucho más cercanos que la semana pasada.

Fuente