OpenAI lanza la voz hiperrealista de ChatGPT para algunos usuarios de pago

OpenAI comenzó a implementar el modo de voz avanzado de ChatGPT el martes, brindando a los usuarios su primer acceso a GPT-4o. Respuestas de audio hiperrealistasLa versión alfa estará disponible para un pequeño grupo de usuarios de ChatGPT Plus hoy, y OpenAI dice que la función se implementará gradualmente para todos los usuarios de Plus en el otoño de 2024.

Cuando OpenAI mostró por primera vez la voz de GPT-4o en mayo, la función sorprendió a la audiencia con respuestas rápidas y un asombroso parecido con la voz de un humano real, de uno en particular. La voz, Sky, se parecía a la de Scarlett Johansson, la actriz detrás de la asistente artificial en la película “Her”. Poco después de la demostración de OpenAI, Johansson dijo Ella rechazó múltiples consultas del director ejecutivo Sam Altman para usar su voz, y después de ver la demostración de GPT-4o, contrató a un abogado para defender su imagen. OpenAI negó haber usado la voz de Johansson, pero luego eliminó la voz que se mostraba en su demostración. En junio, OpenAI dijo que no usaría la voz de Johansson. retrasar el lanzamiento del Modo de Voz Avanzado para mejorar sus medidas de seguridad.

Un mes después, la espera ha terminado (o más bien). OpenAI dice que las capacidades de video y de compartir pantalla mostradas durante su actualización de primavera no serán parte de esta versión alfa, y que se lanzarán en una “fecha posterior”. Por ahora, la demostración de GPT-4o que sorprendió a todos sigue siendo solo una demostración, pero algunos usuarios premium ahora tendrán acceso a la función de voz de ChatGPT que se muestra allí.

ChatGPT ahora puede hablar y escuchar

Es posible que ya hayas probado el modo de voz disponible actualmente en ChatGPT, pero OpenAI afirma que el modo de voz avanzado es diferente. La antigua solución de ChatGPT para el audio utilizaba tres modelos separados: uno para convertir tu voz en texto, GPT-4 para procesar tu mensaje y un tercero para convertir el texto de ChatGPT en voz. Pero GPT-4o es multimodal, capaz de procesar estas tareas sin la ayuda de modelos auxiliares, lo que crea conversaciones con una latencia significativamente menor. OpenAI también afirma que GPT-4o puede detectar entonaciones emocionales en tu voz, incluida la tristeza, la emoción o el canto.

En este piloto, los usuarios de ChatGPT Plus podrán comprobar de primera mano lo hiperrealista que es el modo de voz avanzado de OpenAI. TechCrunch no pudo probar la función antes de publicar este artículo, pero la analizaremos cuando tengamos acceso.

OpenAI dice que está lanzando la nueva voz de ChatGPT gradualmente para monitorear de cerca su uso. Las personas en el grupo alfa recibirán una alerta en la aplicación ChatGPT, seguida de un correo electrónico con instrucciones sobre cómo usarla.

En los meses transcurridos desde la demostración de OpenAI, la empresa afirma haber probado las capacidades de voz de GPT-4o con más de 100 miembros externos del equipo rojo que hablan 45 idiomas diferentes. OpenAI afirma que a principios de agosto se publicará un informe sobre estas medidas de seguridad.

La empresa afirma que el modo de voz avanzado se limitará a las cuatro voces predeterminadas de ChatGPT (Juniper, Breeze, Cove y Ember), creadas en colaboración con actores de voz pagos. La voz Sky que se muestra en la demostración de mayo de OpenAI ya no está disponible en ChatGPT. La portavoz de OpenAI, Lindsay McCallum, afirma que “ChatGPT no puede imitar las voces de otras personas, tanto particulares como figuras públicas, y bloqueará las salidas que difieran de una de estas voces predeterminadas”.

OpenAI está tratando de evitar las controversias sobre los deepfakes. En enero, la tecnología de clonación de voz de la startup de inteligencia artificial ElevenLabs fue utilizado para hacerse pasar por el presidente Bidenengañando a los votantes de las primarias en New Hampshire.

OpenAI también afirma que ha introducido nuevos filtros para bloquear ciertas solicitudes de generación de música u otro audio protegido por derechos de autor. En el último año, las empresas de IA se han metido en problemas legales por infringir los derechos de autor, y los modelos de audio como GPT-4o dan rienda suelta a una nueva categoría de empresas que pueden presentar una denuncia. En particular, las discográficas, que tienen un historial de litigios y ya han demandado a la IA. Generadores de canciones Suno y Udio.

Fuente