El modo de voz avanzado de ChatGPT impresiona a los evaluadores con efectos de sonido que lo dejan sin aliento
Agrandar / Una fotografía de archivo de un robot susurrándole a un hombre.

El martes, OpenAI comenzó a implementarse una versión alfa de su nuevo Modo de Voz Avanzado para un pequeño grupo de suscriptores de ChatGPT Plus. Esta función, que OpenAI vista previa en mayo Con el lanzamiento de GPT-4o, se pretende que las conversaciones con la IA sean más naturales y receptivas. En mayo, la función Crítica desencadenada de su expresividad emocional simulada y provocó una disputa pública con la actriz Scarlett Johansson acusaciones que OpenAI copió su voz. Aun así, las primeras pruebas de la nueva función compartidas por los usuarios en las redes sociales han sido en su mayoría entusiastas.

En las primeras pruebas que informaron los usuarios con acceso, el modo de voz avanzado les permite tener conversaciones en tiempo real con ChatGPT, incluida la capacidad de interrumpir la IA a mitad de una oración casi instantáneamente. Puede detectar y responder a las señales emocionales de un usuario a través del tono y la forma de hablar, y proporcionar efectos de sonido mientras cuenta historias.

Pero lo que inicialmente ha sorprendido a mucha gente es cómo las voces simulan tomando un respiro Mientras habla.

“El modo de voz avanzado de ChatGPT cuenta tan rápido como puede hasta 10, luego hasta 50 (esto me dejó atónito: se detuvo para recuperar el aliento como lo haría un humano)”. escribió El escritor tecnológico Cristiano Giardina en X.

El modo de voz avanzado simula pausas audibles para respirar porque fue entrenado con muestras de audio de personas hablando que incluían la misma característica. El modelo ha aprendido a simular inhalaciones en momentos aparentemente apropiados después de haber sido expuesto a cientos de miles, si no millones, de ejemplos de habla humana. Los modelos de lenguaje grandes (LLM) como GPT-4o son imitadores maestros, y esa habilidad ahora se ha extendido al dominio del audio.

Giardina compartió su Otras impresiones acerca de Modo de voz avanzado sobre X, incluyendo observaciones sobre acentos en otros idiomas y efectos de sonido.

“Es muy rápido, prácticamente no hay latencia desde que dejas de hablar hasta que responde”. el escribio. “Cuando le pides que haga ruidos, siempre hace que la voz “realice” los ruidos (con resultados divertidos). Puede hacer acentos, pero cuando habla otros idiomas siempre tiene acento americano. (En el video, ChatGPT actúa como comentarista de un partido de fútbol)

Hablando de efectos de sonido, el usuario X Kesku, que es moderador del servidor Discord de OpenAI, compartió un ejemplo de ChatGPT reproduciéndose partes múltiples con diferentes voces y otra de una voz contando Una historia de ciencia ficción que suena a audiolibro a partir de la instrucción: “Cuéntame una historia de acción emocionante con elementos de ciencia ficción y crea una atmósfera haciendo ruidos apropiados de las cosas que suceden usando onomatopeyas”.

Kesku también nos presentó algunos ejemplos, incluida una historia sobre la mascota de Ars Technica, “Moonshark”.

También le pidió que cantara la canción “Canción del mayor general” de la ópera cómica de Gilbert y Sullivan de 1879 Los piratas de Penzance:

Manuel Sainsily, frecuente defensor de la IA al corriente Un video del Modo de Voz Avanzado que reacciona a la información de la cámara y da consejos sobre cómo cuidar a un gatito. “Es como hablar por FaceTime con un amigo muy informado, lo que en este caso fue muy útil: nos tranquilizó con nuestro nuevo gatito”, escribió. “¡Puede responder preguntas en tiempo real y también usar la cámara como información!”

Por supuesto, al estar basado en un LLM, ocasionalmente puede conferenciar Respuestas incorrectas sobre temas o situaciones en las que su “conocimiento” (que proviene del conjunto de datos de entrenamiento de GPT-4o) es insuficiente. Pero si se considera una demostración tecnológica o un entretenimiento impulsado por IA y se conocen las limitaciones, el modo de voz avanzado parece ejecutar con éxito muchas de las tareas que mostró la demostración de OpenAI en mayo.

Seguridad

Un portavoz de OpenAI le dijo a Ars Technica que la compañía trabajó con más de 100 evaluadores externos en el lanzamiento del Modo de Voz Avanzado, que en conjunto hablan 45 idiomas diferentes y representan 29 áreas geográficas. Según se informa, el sistema está diseñado para evitar la suplantación de identidad de personas o figuras públicas al bloquear las salidas que difieren de las cuatro voces preestablecidas elegidas por OpenAI.

OpenAI también ha añadido filtros para reconocer y bloquear solicitudes para generar música u otro audio con derechos de autor, lo que ha hecho que otras empresas de IA en problemas.Jardinera reportado “Fuga” de audio en algunas salidas de audio que tienen música no intencional de fondo, lo que demuestra que OpenAI entrenó el modelo de voz AVM en una amplia variedad de fuentes de audio, probablemente tanto de material con licencia como de audio extraído de plataformas de video en línea.

Disponibilidad

OpenAI planea ampliar el acceso a más usuarios de ChatGPT Plus en las próximas semanas, y se espera que el lanzamiento completo para todos los suscriptores de Plus se realice este otoño. Un portavoz de la compañía le dijo a Ars que los usuarios del grupo de prueba alfa recibirán un aviso en la aplicación ChatGPT y un correo electrónico con instrucciones de uso.

Desde la vista previa inicial de la voz GPT-4o en mayo, OpenAI afirma haber mejorado la capacidad del modelo para admitir millones de conversaciones de voz simultáneas en tiempo real, manteniendo al mismo tiempo una baja latencia y una alta calidad. En otras palabras, se están preparando para una avalancha que requerirá una gran cantidad de computación de back-end para adaptarse.

Fuente