Apple entrenó modelos de IA en contenido de YouTube sin consentimiento

Varios gigantes tecnológicos, incluidos Manzanaentrenado AI modelos en YouTube vídeos sin el consentimiento de los creadores, según un nuevo informe publicado hoy.

Lo hicieron utilizando archivos de subtítulos descargados por un tercero de más de 170.000 vídeos. Entre los creadores afectados se encuentran el crítico tecnológico Marquees Brownlee (MKBHD), MrBeast, PewDiePie, Stephen Colbert, John Oliver y Jimmy Kimmel…

Los archivos de subtítulos son efectivamente transcripciones del contenido del vídeo.

Cableado informes.

Una investigación de Proof News descubrió que algunas de las empresas de inteligencia artificial más ricas del mundo han utilizado material de miles de videos de YouTube para entrenar a la inteligencia artificial. Las empresas lo hicieron a pesar de las reglas de YouTube que prohíben la recolección de materiales de la plataforma sin permiso.

Nuestra investigación descubrió que los subtítulos de 173.536 vídeos de YouTube, extraídos de más de 48.000 canales, fueron utilizados por pesos pesados ​​de Silicon Valley, incluidos Anthropic, Nvidia, Apple y Salesforce.

Según se informa, las descargas fueron realizadas por una organización sin fines de lucro llamada EleutherAI, que dice ayudar a los desarrolladores a entrenar modelos de IA. Si bien el objetivo parece haber sido proporcionar materiales de capacitación a pequeños desarrolladores y académicos, el conjunto de datos también ha sido utilizado por varios gigantes tecnológicos, incluido Apple.

Según un artículo de investigación publicado por EleutherAI, el conjunto de datos es parte de una compilación que la organización sin fines de lucro publicó llamada Pile (…)

La mayoría de los conjuntos de datos de Pile son accesibles y están abiertos para cualquier persona en Internet con suficiente espacio y capacidad de procesamiento para acceder a ellos. Los académicos y otros desarrolladores ajenos a las grandes empresas tecnológicas hicieron uso del conjunto de datos, pero no fueron los únicos.

Apple, Nvidia y Salesforce (empresas valoradas en cientos de miles de millones y billones de dólares) describen en sus artículos de investigación y publicaciones cómo utilizaron Pile para entrenar a la IA. Los documentos también muestran que Apple utilizó Pile para entrenar a OpenELM, un modelo de alto perfil lanzado en abril, semanas antes de que la empresa revelara que añadiría nuevas capacidades de IA a los iPhones y MacBooks.

Cableado dice que Apple no había respondido a una solicitud de comentarios al momento de escribir este artículo.

La opinión de 9to5Mac

Es importante destacar que no fue Apple quien descargó los datos, sino EleutherAI, organización que parece haber incumplido las condiciones de uso de YouTube.

De todas formas, si bien Apple y las otras empresas mencionadas probablemente utilizaron un conjunto de datos disponibles públicamente de buena fe, es un buen ejemplo del campo minado legal que se crea al rastrear la web para entrenar a los sistemas de IA. Ha habido múltiples ejemplos de sistemas de IA que plagiaron párrafos enteros de texto cuando se les preguntó sobre temas específicos, y los peligros de usar material sin permiso solo aumentan cuando las empresas usan conjuntos de datos compilados por terceros.

Nos comunicamos con Apple para solicitar comentarios y actualizaremos la información con cualquier respuesta.

Captura de pantalla: MKBHD

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

Fuente