He aquí una pregunta que puede desconcertar a una empresa de IA generativa: “¿Qué contenido se ha utilizado para entrenar sus modelos?”. Mientras que algunos optan por esquivar la pregunta, y otros Afrontamos el problema con optimismo En su totalidad, la cuestión de si una empresa de inteligencia artificial ha recopilado contenido para sus propios fines comerciales sin permiso es espinosa.
En el mejor de los casos, es probable que recibas una explicación poco convincente. “conjuntos de datos seleccionados”y en el peor de los casos, una polémica sobre si En Internet todo es esencialmente un juego limpio.
Ahora un documento obtenido por 404media Parece demostrar que parte de los datos utilizados para entrenar la última herramienta de generación de videos de IA de Runway, Gen-3, pueden provenir de los canales de YouTube de miles de compañías de medios populares, incluidas Pixar, Netflix, Disney y Sony.
Si bien 404media no entra en detalles sobre cómo se obtuvo el documento ni pudo verificar que cada video mencionado en él se usó para entrenar a Gen-3, es potencialmente una idea del tipo de prácticas que una empresa de IA podría usar para extraer material con derechos de autor para entrenar sus modelos.
Un ex empleado de Runway habló con 404media sobre la metodología utilizada. Se dice que las 14 hojas de cálculo incluidas en el documento filtrado contienen términos como “playa” o “lluvia”, con los nombres de los empleados de Runway al lado.
Según la fuente, se decía que estos nombres eran empleados encargados de encontrar vídeos o canales relacionados con estas palabras clave, quienes luego utilizarían una herramienta de descarga de vídeos de YouTube a través de un proxy para extraerlos del sitio sin ser bloqueados por Google.
No solo parece que se han extraído contenidos de YouTube. Se ha encontrado una hoja de cálculo con 14 enlaces a fuentes ajenas a YouTube, incluido un enlace a un sitio web dedicado a la transmisión de dibujos animados y películas animadas populares, con miles de denuncias por derechos de autor registradas en su contra.
En esencia, los medios pirateados parecen haber sido al menos considerados como datos de entrenamiento, si no extraídos y utilizados directamente.
404media en realidad fue un paso más allá e intentó usar Gen-3 para generar videos usando indicaciones que contenían palabras clave basadas en los términos encontrados en la hoja de cálculo, y pudo crear clips que parecían tener el mismo estilo que el contenido asociado.
Runway fue financiado en parte por Googleentre otros, por lo que, si es cierto, copiar contenido sin permiso de los creadores en sus plataformas probablemente le traerá problemas importantes. Sin mencionar las posibles repercusiones legales más amplias.
Aun así, aunque el tema del robo de contenido por parte de la IA es espinoso, el modelo aún parece tener problemas. Ars Technica intentó crear algunos videos recientemente con Gen-3 Alpha, y le dio a un gato un par de manos humanasNo estoy seguro de qué contenido se utilizó para entrenar esa versión particular del modelo, pero sugeriría que, sin importar la metodología utilizada aquí, podría mejorarse un poco de una forma u otra.