Muchas empresas no dicen si cumplirán con la ley de transparencia en la capacitación en IA de California

El domingo, el gobernador de California, Gavin Newsom, firmó un facturaAB-2013, que exige que las empresas que desarrollan sistemas de IA generativa publiquen un resumen de alto nivel de los datos que utilizaron para entrenar sus sistemas. Entre otros puntos, los resúmenes deben cubrir quién es el propietario de los datos y cómo se obtuvieron o licenciaron, así como si incluyen información personal o protegida por derechos de autor.

Pocas empresas de IA están dispuestas a decir si cumplirán.

TechCrunch se acercó a los principales actores en el espacio de la IA, incluidos OpenAI, Anthropic, Microsoft, Google, Amazon, Meta y las nuevas empresas Stability AI, Midjourney, Udio, Suno, Runway y Luma Labs. Menos de la mitad respondió y un proveedor, Microsoft, se negó explícitamente a hacer comentarios.

Solo Stability, Runway y OpenAI le dijeron a TechCrunch que cumplirían con AB-2013.

“OpenAI cumple con la ley en las jurisdicciones en las que operamos, incluida ésta”, dijo un portavoz de OpenAI. Un portavoz de Stability dijo que la compañía “apoya una regulación bien pensada que proteja al público y al mismo tiempo no sofoque la innovación”.

Para ser justos, los requisitos de divulgación de AB-2013 no entran en vigor de inmediato. Si bien se aplican a los sistemas lanzados a partir de enero de 2022 (ChatGPT y Stable Diffusion, por nombrar algunos), las empresas tienen hasta enero de 2026 para comenzar a publicar resúmenes de datos de capacitación. La ley también se aplica sólo a los sistemas puestos a disposición de los californianos, lo que deja cierto margen de maniobra.

Pero puede haber otra razón para el silencio de los proveedores al respecto, y tiene que ver con la forma en que se entrenan la mayoría de los sistemas de IA generativa.

Los datos de entrenamiento frecuentemente provienen de la web. Los proveedores extraen grandes cantidades de imágenes, canciones, vídeos y más de sitios web y entrenan sus sistemas con ellos.

Hace años, era una práctica estándar que los desarrolladores de IA enumeraran las fuentes de sus datos de entrenamiento, generalmente en un documento técnico que acompañaba al lanzamiento de un modelo. Google, por ejemplo, reveló una vez que entrenó una versión temprana de su familia de modelos de generación de imágenes, Imagensobre el público LAION conjunto de datos. Muchos más viejo papeles mencione The Pile, una colección de código abierto de textos de capacitación que incluye estudios académicos y bases de código.

En el feroz mercado actual, la composición de conjuntos de datos de entrenamiento se considera una ventaja competitiva, y las empresas cita esto como una de las principales razones de su no divulgación. Pero los detalles de los datos de entrenamiento también pueden representar un objetivo legal para los desarrolladores. Enlaces de LAION a protegido por derechos de autor y violar la privacidad imágenes, mientras que The Pile contiene Libros3una biblioteca de obras pirateadas de Stephen King y otros autores.

Ya hay una serie de demandas encima uso indebido de datos de entrenamiento, y cada mes se presentan más.

Autores y editores afirmar que OpenAI, Anthropic y Meta utilizaron libros con derechos de autor, algunos de Books3, para la capacitación. Los sellos discográficos se han llevado a Udio y Suno a la corte por supuestamente entrenar canciones sin compensar a los músicos. Y los artistas tienen presentó demandas colectivas contra Stability y Midjourney por lo que dicen son prácticas de extracción de datos que equivalen a robo.

No es difícil ver cómo la AB-2013 podría ser problemática para los proveedores que intentan mantener a raya las batallas judiciales. La ley exige que se hagan públicas una serie de especificaciones potencialmente incriminatorias sobre los conjuntos de datos de entrenamiento, incluido un aviso que indique cuándo se utilizaron los conjuntos por primera vez y si la recopilación de datos está en curso.

AB-2013 tiene un alcance bastante amplio. Cualquier entidad que “modifique sustancialmente” un sistema de IA (es decir, lo ajuste o lo vuelva a entrenar) es también obligados a publicar información sobre los datos de entrenamiento que utilizaron para hacerlo. La ley tiene algunos tallaspero se aplican principalmente a los sistemas de inteligencia artificial utilizados en ciberseguridad y defensa, como los utilizados para “la operación de aeronaves en el espacio aéreo nacional”.

Por supuesto, muchos vendedores creen que la doctrina conocida como uso justo proporciona cobertura legal, y Están afirmando esto en la corte. y en público declaraciones. Algunos, como Meta y Google, tener cambió la configuración y los términos de servicio de sus plataformas para permitirles aprovechar más datos de los usuarios para la capacitación.

Estimuladas por las presiones competitivas y apostando a que las defensas del uso legítimo prevalecerán al final, algunas empresas se han capacitado generosamente en datos protegidos por propiedad intelectual. Informes por Reuters reveló que Meta en un momento utilizó libros con derechos de autor para el entrenamiento de IA a pesar de las advertencias de sus propios abogados. hay evidencia que Runway obtuvo películas de Netflix y Disney para entrenar sus sistemas de generación de videos. Y OpenAI según se informa transcribió vídeos de YouTube sin el conocimiento de los creadores para desarrollar modelos, incluidos GPT-4.

como lo hemos hecho escrito anteshay un resultado en el que los proveedores de IA generativa salen impunes, con o sin divulgación de datos de entrenamiento del sistema. Los tribunales pueden terminar poniéndose del lado de los defensores del uso legítimo y decidir que la IA generativa es suficientemente transformador – y no el motor de plagio Los New York Times y otros demandantes alegan que así es.

En un escenario más dramático, AB-2013 podría llevar a que los proveedores retengan ciertos modelos en California o publiquen versiones de modelos para californianos capacitados únicamente en uso legítimo y conjuntos de datos con licencia. Algunos proveedores pueden decidir que el curso de acción más seguro con AB-2013 es el que evita divulgaciones comprometedoras (y que generen demandas).

Suponiendo que la ley no sea cuestionada y/o suspendida, tendremos una imagen clara para la fecha límite de AB-2013 dentro de poco más de un año.

Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here