Nvidia fue descubierta robando una cantidad impresionante de videos de YouTube para entrenar a su IA

“Una fábrica de datos de video que puede generar por día datos de entrenamiento equivalentes a la experiencia visual de toda una vida humana”.

Documentos filtrados obtenido por 404 Medios revelan que el gigante de chips que impulsa la IA, Nvidia, ha estado recopilando silenciosamente cantidades astronómicas de datos de videos de YouTube para entrenar sus modelos de IA, una decisión legal y éticamente turbia que se suma a la pila cada vez mayor de prácticas de entrenamiento de IA profundamente cuestionables y a menudo muy secretas por parte de entidades que van desde nuevas empresas hasta gigantes corporativos.

De acuerdo a 404En esta primicia explosiva, Nvidia ha obtenido una cantidad impresionante de datos de YouTube para entrenar modelos de IA, incluido su modelo de aprendizaje profundo Cosmos, un algoritmo de automóvil autónomo, un producto de avatar de IA “humano digital” y su herramienta de creación de mundos 3D llamada Omniverse.

Según se informa, Nvidia también se esforzó por ocultar sus actividades de YouTube, utilizando docenas de “máquinas virtuales” que cambiaban automáticamente sus direcciones IP para evitar ser detectadas.

Ni los creadores de videos individuales ni el propietario de YouTube, Google, una Cliente destacado de Nvidiaconsintió en que Nvidia extrajera datos. Y la correspondencia interna entre los empleados de Nvidia, incluidos los de sus superiores, revela una estrategia descaradamente descarada, de hacer preguntas después (o, con suerte, no hacer preguntas nunca) en la campaña encubierta de extracción de datos.

“Estamos finalizando la cadena de datos v1 y asegurando los recursos informáticos necesarios”, escribió Ming-Yu Liu, vicepresidente de investigación de Nvidia y líder del proyecto Cosmos, en un correo electrónico de mayo, según 404“construir una fábrica de datos de video que pueda generar datos de entrenamiento por valor de una experiencia visual de toda una vida humana por día”.

Es más, en respuesta a las preocupaciones de los empleados respecto de la legalidad y la ética de las nuevas prácticas de adquisición de datos de Nvidia, los gerentes, incluido Liu, insistieron en que la medida fue aprobada de arriba hacia abajo.

“Esta es una decisión ejecutiva”, escribió Liu a un subordinado indeciso en una de esas ocasiones, según los mensajes de Slack revisados ​​por 404“Tenemos una aprobación general para todos los datos”.

En un caso particularmente escandaloso, los documentos obtenidos por 404 reveló que en un momento dado Nvidia entrenó a sabiendas sus modelos en HD-VG-130M, un conjunto de datos entrenado en 130 millones de videos de YouTube creados explícitamente para investigación académica. Dado que Nvidia estaba usando esos datos académicos para entrenar modelos comerciales, es una imagen horrible.

“Creo que hay una enorme brecha entre comercializar algo sin el consentimiento de alguien”, dijo Shayne Longpre, candidata a doctorado en el MIT Media Lab. 404 del mal uso de datos destinados a la investigación, “en comparación con el estudio de las capacidades generativas de la IA basadas en cosas que se han publicado en línea”.

Nvidia ha emergido como una Actor central en la industria de la IA debido a su dominio del mercado sobre las unidades de procesamiento gráfico (GPU), que son los chips informáticos que a menudo respaldan los sistemas de IA con gran capacidad de procesamiento. Las empresas de IA, incluidas OpenAI, Microsoft, Meta y, nuevamente, Google, se consideran clientes de Nvidia, lo que hace que el uso furtivo por parte de Nvidia de lo que, en última instancia, son datos propiedad de Google, sea aún más escandaloso. Todos los actores importantes de la industria de la IA están luchando por el dominio, incluida Nvidia, la columna vertebral del hardware del mercado y ahora un enemigo probado.

De hecho, cuando me preguntaron: 404 Sobre las prácticas de scraping de Nvidia, un portavoz de Google señaló una entrevista de abril en la que el director ejecutivo de YouTube, Neal Mohan dijo Bloomberg eso utilizando los datos de YouTube sin permiso es una “clara violación” de los términos de servicio de la plataforma.

“Cuando un creador sube su arduo trabajo a nuestra plataforma, tiene ciertas expectativas”, dijo Mohan. Bloomberg“Una de esas expectativas es que se respeten los términos del servicio. No se permite descargar cosas como transcripciones o fragmentos de video, y eso es una clara violación de nuestros términos del servicio”.

En una declaración a 404Nvidia afirmó que sus prácticas de entrenamiento de IA “cumplen plenamente con la letra y el espíritu de la ley de derechos de autor”. Por supuesto, todavía no se ha decidido qué piensan al respecto los humanos que crearon el contenido que supuestamente dura toda una vida y que ahora alimenta los sistemas de IA del fabricante de chips.

Más sobre Nvidia: ¿El colapso de las acciones tecnológicas está relacionado con el estallido de la burbuja de la IA?

Fuente