Los creadores de YouTube se sorprenden al descubrir que Apple y otros han entrenado IA en sus videos
Agrandar / El youtuber Marques Brownlee analiza iOS 18 en un nuevo video. Este video en particular no formaba parte del gran conjunto de datos que se utilizó para entrenar los modelos de IA, pero muchos de los otros sí lo eran.

Los modelos de inteligencia artificial de Apple, Salesforce, Anthropic y otras importantes empresas tecnológicas fueron entrenados en decenas de miles de videos de YouTube sin el consentimiento de los creadores y potencialmente violando los términos de YouTube, según un nuevo informe que aparece en ambos medios. Noticias de prueba y Cableado.

Las empresas entrenaron sus modelos en parte utilizando “the Pile”, una colección de organizaciones sin fines de lucro EleutherAI que se creó como una forma de ofrecer un conjunto de datos útil a personas o empresas que no tienen los recursos para competir con las grandes tecnológicas, aunque desde entonces también lo han utilizado esas empresas más grandes.

The Pile incluye libros, artículos de Wikipedia y mucho más. Eso incluye subtítulos de YouTube recopilados por la API de subtítulos de YouTube, extraídos de 173.536 videos de YouTube en más de 48.000 canales. Eso incluye videos de grandes YouTubers como MrBeast, PewDiePie y comentaristas de tecnología populares. Marqués BrownleeEn X, Brownlee gritó El uso que hace Apple del conjunto de datos, pero reconoció que asignar culpas es complejo cuando Apple no recopiló los datos por sí misma. Escribió:

Apple ha obtenido datos para su IA de varias empresas

Uno de ellos extrajo toneladas de datos y transcripciones de vídeos de YouTube, incluidos los míos.

Técnicamente, Apple evita la “culpa” aquí porque no son ellos los que están raspando.

Pero este será un problema que evolucionará durante mucho tiempo.

También incluye los canales de numerosas marcas de medios tradicionales y en línea, incluidos videos escritos, producidos y publicados por Ars Technica y su personal y por numerosas otras marcas de Condé Nast como Wired y The New Yorker.

Por coincidencia, uno de los vídeos utilizados en el conjunto de datos era un cortometraje producido por Ars Technica en el que el chiste era que ya había sido escrito por una IA. El artículo de Proof News también menciona que se entrenó con vídeos de un loro, por lo que los modelos de IA imitan a un loro, repiten el habla humana, así como a otras IA, repiten el habla humana.

A medida que el contenido generado por IA continúa proliferando en Internet, será cada vez más difícil reunir conjuntos de datos para entrenar a la IA que no incluyan contenido ya producido por ella.

Para ser claros, parte de esto no es una novedad. The Pile se utiliza y se menciona a menudo en círculos de IA y se sabe que las empresas de tecnología lo han utilizado para capacitación en el pasado. Ha sido citado en múltiples demandas por propietarios de propiedad intelectual contra empresas de IA y tecnología en el pasado. Los demandados en esas demandas, Incluyendo OpenAIafirman que este tipo de scraping es un uso legítimo. Las demandas aún no se han resuelto en los tribunales.

Sin embargo, Proof News investigó un poco para identificar detalles específicos sobre el uso de subtítulos en YouTube y llegó al punto de crear una herramienta que puedes usar para busca en la pila para vídeos o canales individuales.

El trabajo expone cuán robusta es la recopilación de datos y llama la atención sobre el poco control que tienen los propietarios de propiedad intelectual sobre cómo se utiliza su trabajo si está en la web abierta.

Reacciones de los creadores

Proof News también se puso en contacto con varios de estos creadores para obtener declaraciones, así como con las empresas que utilizaron el conjunto de datos. La mayoría de los creadores se sorprendieron de que su contenido se hubiera utilizado de esta manera, y aquellos que proporcionaron declaraciones criticaron a EleutherAI y a las empresas que utilizaron su conjunto de datos. Por ejemplo, David Pakman de El show de David Pakman dicho:

Nadie vino a mí y me dijo: “Nos gustaría utilizar esto”… Este es mi medio de vida y dedico tiempo, recursos, dinero y tiempo de mi personal a crear este contenido. Realmente no hay escasez de trabajo.

Julia Walsh, directora ejecutiva de la productora Complexly, es responsable de Espectáculo científico y otros contenidos educativos de Hank y John Green, dijo:

Nos frustra saber que nuestro contenido educativo elaborado cuidadosamente se ha utilizado de esta manera sin nuestro consentimiento.

También está la cuestión de si la extracción de este contenido viola los términos de YouTube, que prohíben el acceso a los videos por “medios automáticos”. El fundador de EleutherAI, Sid Black, dijo que utilizó un script para descargar los subtítulos a través de la API de YouTube, tal como lo hace un navegador web.

Anthropic es una de las empresas que ha entrenado modelos en el conjunto de datos y, por su parte, afirma que no hay ninguna violación en este aspecto. La portavoz Jennifer Martínez dijo:

The Pile incluye un subconjunto muy pequeño de subtítulos de YouTube… Los términos de YouTube cubren el uso directo de su plataforma, que es distinto del uso del conjunto de datos de The Pile. En cuanto a las posibles violaciones de los términos de servicio de YouTube, tendríamos que remitirte a los autores de The Pile.

Un portavoz de Google dijo a Proof News que Google ha tomado “medidas a lo largo de los años para evitar el scraping abusivo y no autorizado”, pero no proporcionó una respuesta más específica. Esta no es la primera vez que las empresas de IA y tecnología han sido objeto de críticas por entrenar modelos en videos de YouTube sin permiso. Cabe destacar que se cree que OpenAI (la empresa detrás de ChatGPT y la herramienta de generación de videos Sora) ha utilizado datos de YouTube para entrenar sus modelos, aunque no todas las acusaciones al respecto han sido confirmadas.

En una entrevista con Nilay Patel de The Verge, el director ejecutivo de Google, Sundar Pichai sugirió que el uso de videos de YouTube para entrenar a Sora de OpenAI habría violado los términos de YouTube. Es cierto que ese uso es distinto a la extracción de subtítulos a través de la API.

Fuente