La voz es nuestro principal medio de comunicación y la telefonía nos ha permitido conectarnos utilizando nuestras voces durante más de un siglo. La llamada telefónica tal como la conocemos ha evolucionado de analógica a digital, de fija a móvil y de baja calidad de voz a calidad de voz natural. Sin embargo, aún faltaba un avance importante: cómo permitir que se transmita en vivo un sonido totalmente auténtico e inmersivo.
La introducción del códec IVAS (Servicios de audio y voz inmersivo), estandarizado por 3GPP en la versión 18 en junio de este año, representa un avance importante en la tecnología de audio. A diferencia de las llamadas de voz monofónicas tradicionales, IVAS permite la transmisión de audio tridimensional inmersivo, ofreciendo una experiencia de comunicación más rica y realista. Esta innovación es posible utilizando nuevos formatos de audio optimizados para la experiencia de audio espacial conversacional. Un ejemplo de ello es un nuevo formato de audio espacial asistido por metadatos, MASA, que utiliza sólo dos canales de audio y metadatos para descripciones de audio espacial. Las llamadas de audio espacial permiten a los usuarios experimentar el sonido como si estuviera sucediendo en la vida real, con funciones como el seguimiento de la cabeza.
A continuación exploraremos los desafíos de llevar las llamadas en vivo 3D a los teléfonos móviles, los requisitos abordados en la comunicación espacial y el nuevo códec IVAS, y el impacto revolucionario que el audio 3D en vivo tendrá para las personas, los operadores móviles y teléfonos inteligentes de negocios.
Jefe de Gestión de Productos, Nokia Technologies.
Llevando las llamadas 3D a los teléfonos móviles
La última gran innovación en llamadas de voz fue el códec EVS, introducido en 2014 y reconocido por los consumidores como HD Voice+. Si bien mejoró significativamente la calidad de las llamadas, como todos los códecs anteriores, solo ofrecía una experiencia auditiva monofónica.
Con la introducción de las llamadas de audio 3D, el mayor salto en la tecnología de audio de llamadas de voz en décadas, surge el desafío de crear una experiencia auténtica e inmersiva en la comunicación cotidiana. Si bien la tecnología de voz ha evolucionado significativamente (de analógica a digital, fija a móvil y de baja calidad a una calidad de voz natural), la transmisión de audio espacial, donde los sonidos se perciben como provenientes naturalmente de todas partes, es mucho más complejo de recrear en entornos móviles.
Lograr este nivel de experiencia de sonido envolvente ha sido más fácil en entornos controlados como cines y Juegos de vídeodonde el diseño de sonido es un elemento central, pero reproducirlo en las llamadas móviles cotidianas presenta una variedad de obstáculos técnicos que incluyen el procesamiento de sonido espacial en tiempo real, limitaciones de hardware y garantía de compatibilidad entre dispositivos.
Por lo tanto, el códec de voz Immersive Voice and Audio Services (IVAS) es el paso adelante más significativo en la tecnología de audio para llamadas de voz en décadas.
Cómo abordar y superar los desafíos de la comunicación espacial
Ha habido varios desafíos que superar para que Immersive Voice se convierta en una sólida solución de audio espacial. Una cuestión clave es la reducción del ruido, crucial para mejorar la claridad del habla en entornos como conciertos o la naturaleza. Los métodos tradicionales de reducción de ruido a menudo sólo filtran los sonidos continuos, como los zumbidos del aire acondicionado o el ruido del tráfico, pero suelen dejar otros ruidos de fondo. La interferencia del viento también plantea un desafío al introducir ruido no deseado y provocar fluctuaciones en los niveles de audio.
Sin embargo, los avances recientes en el aprendizaje automático y la reducción inteligente del ruido han abordado estos problemas. La tecnología de audio inmersivo, por ejemplo, está diseñada para ajustar de manera inteligente la cantidad de ruido de fondo que se reduce dependiendo del entorno circundante, además de brindar control a los usuarios, lo que les permite ajustar manualmente los niveles de reducción de ruido. Esto garantiza que se transmitan los sonidos esenciales y al mismo tiempo se minimiza el ruido de fondo no deseado.
Configuraciones de audio inmersivas con múltiples micrófonos y los altavoces también se enfrentan a un obstáculo importante: el eco acústico. Esto sucede cuando los micrófonos captan sonido cercano. altavocesprovocando comentarios no deseados. El problema es aún más desafiante en configuraciones con audio espacial, donde la ubicación y la cantidad de altavoces afectan la calidad del sonido y la capacidad del dispositivo para capturar audio espacial. Los métodos tradicionales de cancelación de eco acústico (AEC) a menudo no funcionan bien en estos entornos complejos. Para resolver esto, se creó una solución AEC espacial basada en aprendizaje automático, que elimina el sonido del altavoz de la entrada del micrófono mediante una señal de referencia. Esto mejora la calidad del audio, especialmente para el audio espacial en aplicaciones de voz en tiempo real.
Presentamos el códec IVAS
Para llevar audio espacial a las llamadas de teléfonos móviles, además de los servicios Over-the-Top (OTT), el Proyecto de Asociación de Tercera Generación (3GPP) adoptó recientemente un nuevo estándar de códec de voz. Desarrollado a través de la colaboración de 13 empresas, el estándar de códec IVAS se incluyó en la versión 18 del 3GPP, basándose en el códec ampliamente utilizado de Servicios de Voz Mejorados (EVS). Es importante destacar que el códec IVAS mantiene total compatibilidad con versiones anteriores, lo que garantiza una interoperabilidad perfecta con los servicios de voz existentes.
Una de las innovaciones clave durante la estandarización de IVAS fue la creación de un nuevo formato de audio paramétrico, Audio espacial asistido por metadatos (MASA), diseñado específicamente para dispositivos con factores de forma limitados, como teléfonos inteligentes. El códec IVAS integra un renderizador incorporado que admite audio binaural con seguimiento de cabeza y reproducción de múltiples altavoces utilizando el formato MASA.
Además, un SDK de cliente de voz inmersivo puede servir como interfaz de IVAS, capturando audio espacial de los micrófonos del dispositivo y convirtiéndolo al formato MASA estandarizado. Esta tecnología permite verdaderas experiencias de audio inmersivas en 3D para varios tipos de llamadas de voz.
El poder del audio 3D en vivo: lo que significa para las personas, los operadores y las empresas
El nuevo audio 3D inmersivo revoluciona la experiencia de audio para consumidores, empresas e industrias. Para los consumidores, profundiza la participación en las interacciones con amigos y familiares al compartir sonidos locales, ya sea transmitidos en vivo o grabados, y ofrece una inmersión total en experiencias sincronizadas del metaverso. Para las empresas, las llamadas de voz con audio 3D desbloquean nuevas capacidades, desde experiencia del cliente a través del audio direccional para transformar la colaboración y la toma de decisiones en equipo. En entornos industriales, el análisis de audio puede impulsar procesos automatizados como el mantenimiento predictivo, la optimización de las operaciones y el aumento de la eficiencia.
Para permitir estas experiencias en diversas condiciones de red, los proveedores de servicios necesitan soluciones escalables que optimicen el rendimiento independientemente de las limitaciones de ancho de banda. El códec estándar 3GPP IVAS admite velocidades de bits que van desde 13,2 a 512 kbit/s, lo que garantiza una calidad de audio envolvente ya sea que se utilice en redes congestionadas o entornos de transmisión de alta calidad. Esta escalabilidad permite a los proveedores de servicios brindar soporte a más usuarios y, al mismo tiempo, brindar experiencias de audio ricas.
De cara al futuro, se espera que el comportamiento de los usuarios basados en la voz siga evolucionando. Más allá de las llamadas tradicionales, la comunicación de audio espacial se expandirá para incluir mensajes semisincrónicos a través de aplicaciones populares, personas que se envían clips de voz entre sí y un uso más amplio de llamadas grupales. Con el auge de los dispositivos y servicios de realidad extendida en todas las industrias, el alcance de la comunicación por voz se ampliará aún más, con la inmersión como una característica definitoria. Un factor clave en esta evolución será la estandarización y la integración del códec IVAS en el último estándar avanzado 5G, que es esencial para garantizar la interoperabilidad necesaria para llevar llamadas 3D a cada teléfono con solo presionar un botón.
Hemos calificado los mejores sistemas telefónicos comerciales..
Este artículo se produjo como parte del canal Expert Insights de TechRadarPro, donde presentamos las mejores y más brillantes mentes de la industria tecnológica actual. Las opiniones expresadas aquí son las del autor y no son necesariamente las de TechRadarPro o Future plc. Si estás interesado en contribuir, descubre más aquí: https://www.techradar.com/news/submit-your-story-to-techradar-pro