OpenAI, regla antrópica de ignorar que evita que los bots extraigan contenido web

Los dos mejores del mundo AI Las nuevas empresas están ignorando las solicitudes de los editores de medios para que dejen de extraer su contenido web de forma gratuita. datos de entrenamientosegún ha podido saber Business Insider.

AbiertoAI y antrópico Se ha descubierto que están ignorando o eludiendo una regla web establecida, llamada robots.txtque evita el scraping automatizado de sitios web.

TollBit, una startup cuyo objetivo es negociar acuerdos de licencia paga entre editores y empresas de IA, descubrió que varias empresas de IA están actuando de esta manera e informó a ciertos grandes editores en una carta del viernes, que fue informado anteriormente por Reuters. La carta no incluía los nombres de ninguna de las empresas de inteligencia artificial acusadas de eludir la norma.

OpenAI y Anthropic han declarado públicamente que respetan los robots.txt y los bloqueos de sus rastreadores web específicos. GPTBot y Claude Bot.

Sin embargo, según las conclusiones de TollBit, dichos bloqueos no se respetan como se afirma. Las empresas de inteligencia artificial, incluidas OpenAI y Anthropic, simplemente eligen “evitar” el archivo robots.txt para recuperar o extraer todo el contenido de un sitio web o página determinados.

Una portavoz de OpenAI se negó a hacer comentarios más allá de señalar BI a una empresa. entrada en el blog de mayo, en el que la compañía dice que tiene en cuenta los permisos del rastreador web “cada vez que entrenamos un nuevo modelo”. Un portavoz de Anthropic no respondió a los correos electrónicos en busca de comentarios.

Robots.txt es un fragmento de código que se ha utilizado desde finales de la década de 1990 como una forma para que los sitios web indiquen a los rastreadores de bots que no quieren que sus datos sean extraídos y recopilados. Fue ampliamente aceptada como una de las reglas no oficiales que respaldan la web.

Con el auge de la IA generativa, las nuevas empresas y las empresas de tecnología se apresuran a construir los modelos de IA más potentes. Un ingrediente clave son los datos de alta calidad. La sed de dichos datos de capacitación ha socavado el archivo robots.txt y los acuerdos no oficiales que respaldan el uso de este código.

OpenAI está detrás del popular chatbot ChatGPT. El mayor inversor de la empresa es Microsoft. Anthropic está detrás de otro chatbot relativamente popular, Claude. Su mayor inversor es Amazon.

Ambos chatbots ofrecen respuestas a las preguntas de los usuarios en el tono de un humano. Estas respuestas sólo son posibles porque los modelos de IA en los que se basan incluyen cantidades masivas de texto escrito y datos extraídos de la web, muchos de ellos bajo derechos de autor o propiedad de los creadores.

El año pasado, varias empresas de tecnología argumentaron ante la Oficina de Derechos de Autor de EE. UU. que nada en la web debe considerarse bajo derechos de autor cuando se trata de datos de entrenamiento de IA.

OpenAI ha llegado a algunos acuerdos con editores para acceder al contenido, incluido Axel Springer, propietario de BI. La Oficina de Derechos de Autor de EE. UU. está lista para actualizar su guía sobre IA y derechos de autor después en este año.

¿Es usted un empleado de tecnología o alguien más con un consejo o una idea para compartir? Póngase en contacto con Kali Hays en khays@businessinsider.com o en una aplicación de mensajería seguraSeñal al +1-949-280-0267. Comuníquese utilizando un dispositivo que no sea de trabajo.

Fuente