Las empresas chinas de inteligencia artificial luchan por diferenciarse de sus rivales en el mercado de texto a vídeo

Empresas chinas, desde la startup Zhipu AI hasta el gigante tecnológico ByteDance, se apresuraron a lanzar herramientas de generación de videos de inteligencia artificial (IA) en los últimos días, pero enfrentan desafíos para diferenciarse de sus rivales locales en el mercado.

Entre otros nuevos participantes en el mercado se encuentran el operador de plataformas de vídeos cortos Kuaishou Technology y la start-up Shengshu AI, que ha lanzado herramientas de generación de vídeos para uso público. El gigante del comercio electrónico Alibaba Group Holding también ha publicado un marco para una herramienta al estilo de Sora. Alibaba es propietaria del South China Morning Post.

Si bien las empresas chinas están unos meses detrás de Sora de OpenAi en el desarrollo de modelos que pueden convertir texto en videos, han demostrado potencial para ponerse al día rápidamente en ese campo, dijeron analistas.

Lu Yanxia, ​​director de investigación de tecnología emergente en IDC China, dijo que los modelos de conversión de texto a video han proliferado gracias a las importantes inversiones de China en modelos de IA. OpenAI, respaldada por Microsoft, fue pionera en la generación de texto a video con el debut de Sora en febrero, pero la empresa emergente con sede en San Francisco aún no ha puesto el producto a disposición del público en general, y solo se le ha dado acceso a un número limitado de usuarios piloto.

En esta ilustración fotográfica, un video creado por la herramienta de conversión de texto a video Sora de Open AI se reproduce en un monitor en Washington, DC, el 16 de febrero de 2024. Foto: AFP/Getty Images/TNS

ByteDance fue el último entre sus pares en presentar su versión de Sora, con una herramienta de video llamada Jimeng lanzada en las tiendas locales de Android el 31 de julio. Acepta indicaciones de texto e imágenes para generar un clip de hasta 12 segundos, lo que la convierte en la mejor opción cuando se trata de duración de video.

El modelo de Kuaishou puede generar clips con una duración máxima de 10 segundos, mientras que Qing de ZhipuAI y Vidu de Shengshu generan clips de entre cuatro y seis segundos. Shengshu, por su parte, destaca en cuanto a velocidad de generación. Su versión tarda menos de 30 segundos en generar un clip de cuatro segundos, mientras que la mayoría del resto de servicios tardan más en generar un vídeo de duración similar.

Un empleado de una de las empresas de inteligencia artificial, que pidió el anonimato, dijo que los modelos desarrollados por las empresas chinas eran homogéneos y no variaban mucho entre sí. Más bien, las empresas se diferenciarán en función de los servicios que ofrecen y las industrias a las que se dirigen.

Los cuatro servicios han adoptado un modelo freemium, que permite a los usuarios probar los servicios sin cargo, pero con tiempos de espera más largos durante los períodos de mayor uso. También ofrecen planes de precios para que los usuarios puedan evitar demoras y recibir beneficios adicionales, como clips de mayor definición.

Lu, de IDC, espera que los modelos de video sean adoptados primero por el sector de Internet, en particular para la transmisión en vivo y los videojuegos, y luego seguirán las aplicaciones en ciudades inteligentes y en la industria manufacturera.

“Este será el principal campo competitivo para las tecnologías de IA generativa”, afirmó.

Fuente