Apple, Anthropic y otras empresas utilizaron videos de YouTube para entrenar a la IA

Más de 170.000 vídeos de YouTube forman parte de un conjunto de datos masivo que se utilizó para entrenar sistemas de IA para algunas de las empresas de tecnología más grandes. según una investigación realizada Noticias de prueba y coeditado con CableadoApple, Anthropic, Nvidia y Salesforce se encuentran entre las empresas tecnológicas que utilizaron los datos de “subtítulos de YouTube” extraídos de la plataforma de vídeo sin permiso. El conjunto de datos de entrenamiento es una colección de subtítulos extraídos de vídeos de YouTube pertenecientes a más de 48.000 canales; no incluye imágenes de los vídeos.

En el conjunto de datos aparecen videos de creadores populares como MrBeast y Marques Brownlee, al igual que clips de medios de comunicación como ABC News, BBC y Los New York Times. Más de 100 vídeos de El borde aparecen en el conjunto de datos, junto con muchos otros vídeos de Voz.

“Apple ha obtenido datos para su IA de varias empresas”, dijo Brownlee, conocido por su nombre de usuario MKBHD. escribió en una publicación en X“Uno de ellos extrajo toneladas de datos y transcripciones de vídeos de YouTube, incluidos los míos”, añadió. “Este será un problema que seguirá evolucionando durante mucho tiempo”.

YouTube no respondió de inmediato a El borde's petición de comentario.

Como parte de su investigación, Noticias de prueba También publicado una herramienta de búsqueda interactivaPuede utilizar su función de búsqueda para ver si su contenido (o el de su YouTuber favorito) aparece en el conjunto de datos.

El conjunto de datos de subtítulos es parte de una colección más grande de material de la organización sin fines de lucro EleutherAI llamada The Pile, una colección de código abierto que también contiene conjuntos de datos de libros, artículos de Wikipedia y más. El año pasado, Un análisis de un conjunto de datos llamado Books3 reveló qué trabajos de los autores se habían utilizado para entrenar sistemas de IA, y el conjunto de datos ha sido citado en demandas de los autores contra las empresas que lo utilizaron para entrenar a la IA.

Las empresas de inteligencia artificial rara vez son voluntariamente transparentes sobre los datos que ingresan a sus sistemas de inteligencia artificial; cómo se usa específicamente el contenido de YouTube ha sido una pregunta clave en los últimos meses. En marzo, Cuando OpenAI presentó su potente herramienta de generación de vídeo, SoraLa directora técnica Mira Murati eludió repetidamente las preguntas sobre si el sistema fue entrenado con videos de YouTube.

“No voy a entrar en detalles sobre los datos que se utilizaron, pero eran datos disponibles públicamente o con licencia”, ella dijo El periodico de Wall Street En el momento. Cuando es presionado por el Diario sobre el contenido de YouTube específicamente, Murati dijo que “no estaba segura de eso”.

En entrevistas anterioresEl director ejecutivo de YouTube, Neal Mohan, ha dicho que el uso de contenido de video para entrenar a la IA, incluidas las transcripciones, violaría los términos de la plataforma. Y en mayo en un episodio de DescifradorEl director ejecutivo de Google, Sundar Pichai, estuvo de acuerdo con la evaluación de Mohan de que si OpenAI realmente hubiera entrenado a Sora en el contenido de YouTube, habría violado los términos de YouTube.

“Tenemos términos y condiciones, y esperamos que la gente los respete cuando crea un producto, así es como me sentí al respecto”, dijo Pichai.



Fuente