Se acusa a Nvidia de recopilar millones de vídeos de Internet para entrenar sus propios productos de inteligencia artificial. Las fuentes afirman que los vídeos no solo estaban destinados a la investigación, sino que se suponía que se utilizarían para los productos de la empresa, incluido el generador de mundos 3D Omniverse, los sistemas de vehículos autónomos y su generador de avatares Digital Humans. Estos informes supuestamente procedían de un ex empleado anónimo de Nvidia que compartió los datos con 404 Medios.
Según el medio, a varios empleados se les ordenó descargar videos para entrenar a la IA de Nvidia. Muchos han expresado inquietudes sobre la legalidad y la ética de la medida, pero los gerentes de proyecto les han asegurado constantemente que sería así. Ming-Yu Liu, vicepresidente de investigación de Nvidia, supuestamente respondió a una pregunta con: “Esta es una decisión ejecutiva. Tenemos una aprobación general para todos los datos”.
No es la primera vez que una empresa de tecnología de inteligencia artificial ha sido acusada de extraer contenido en línea sin permiso. Existen varias demandas contra empresas de inteligencia artificial como OpenAI, Stability AI, Midjourney, DeviantArt y Runway. Nvidia no se ve afectada en este momento, ya que es principalmente conocida por suministrar chips de inteligencia artificial a centros de datos, lo que la ayudó a convertirse en una de las empresas más valiosas del mundo.
Sin embargo, parece que Nvidia también quiere entrar en el juego del procesamiento de datos mediante la creación de modelos de IA básicos que otras empresas puedan utilizar como base. Para ayudar a la empresa a lograr una ventaja en el mercado de la IA altamente competitivo en este momento, Nvidia supuestamente apunta a entrenar sus sistemas utilizando una biblioteca masiva de datos de video en línea.
“Estamos finalizando la cadena de datos v1 y asegurando los recursos informáticos necesarios para construir una fábrica de datos de vídeo que pueda generar datos de entrenamiento por día equivalentes a la experiencia visual de toda una vida humana”, dijo Liu en un correo electrónico.
Algunas fuentes informan de que Nvidia utilizó vídeos disponibles públicamente, datos autorizados exclusivamente para investigación no comercial, vídeos de YouTube e incluso películas y programas de Netflix. Incluso se insinúa que la empresa hará que alguien vea las películas mientras utiliza tecnología de captura de pantalla para grabar desde Netflix, aunque no podemos determinar si se trata de una broma. “Deberíamos obtener muchos vídeos de rostros de alta calidad a partir de esto”, añade Liu.
El equipo de Nvidia que está trabajando en su entrenamiento de IA también debería considerar la posibilidad de capturar videos de juego y recurrir al equipo de GeForce Now para que los ayude a conseguirlos. Sin embargo, Jim Fan, un científico de investigación sénior de Nvidia, dijo: “Todavía no tenemos estadísticas ni archivos de video, porque la infraestructura aún no está configurada para capturar muchos videos y acciones de juegos en vivo. Son obstáculos tanto de ingeniería como regulatorios que debemos superar. Pero agregaremos datos GFN (GeForce Now) limpios y procesados a team-vfm tan pronto como lleguen”.
404 Media afirma que el proyecto de inteligencia artificial, denominado Cosmos, comenzó en febrero de 2024. En marzo, el equipo había descargado 100.000 vídeos y, en mayo, un correo electrónico decía que habían recopilado 38,5 millones de URL, de las cuales casi el 40% provenían de vídeos cinematográficos.
No está claro cuán profundo y amplio es el proyecto Cosmos en Nvidia, pero 404 Media ha citado al CEO de Nvidia, Jensen Huang, respondiendo a un correo electrónico al respecto con: “Excelente actualización. Muchas empresas tienen que desarrollar modelos básicos de video. Podemos ofrecer un proceso totalmente acelerado”.
Es probable que Nvidia se esté apresurando a desarrollar su modelo mientras los derechos de autor y otras cuestiones de entrenamiento de IA aún no se han resuelto, lo que da como resultado una enorme zona gris legal. Por el momento, no hay una ley específica que se ocupe del entrenamiento de IA, pero los legisladores ya han tomado nota. Varios proyectos de ley en el Congreso abordan específicamente este tema, como la Ley de Transparencia del Modelo de la Fundación de IA y la Ley de Divulgación de Derechos de Autor de la IA Generativa.
Google sostiene que El scraping con IA es un 'uso legítimo'pero no sabemos a dónde nos llevarán estas leyes. Por eso, aunque todavía no hay nada claro, muchas empresas quieren sacar el máximo partido a los datos online para sacar ventaja a la competencia.