Las empresas de inteligencia artificial han estado rastreando Reddit para entrenar sus modelos, y Reddit no está contento con ello.
Steve Huffman, el director ejecutivo de Reddit, criticó a Microsoft, Anthropic y Perplexity por utilizar los datos de Reddit para entrenar sus modelos de IA sin pagar.
“Hemos tenido a Microsoft, Anthropic y Perplexity actuando como si todo el contenido de Internet fuera gratuito para su uso”, dijo Huffman. El bordediciendo que bloquear a estas empresas ha sido “un verdadero dolor de cabeza”.
Las empresas de IA utilizan Rastreadores web —bots diseñados para descargar información de Internet— que Reddit ha estado tratando de bloquear, al cambiar sus políticas para detener a las empresas que no pagan por recopilar datos de Reddit, Bloomberg reportado.
“Cuando se utilizaba para búsquedas sencillas, para crear enlaces simples que nos enviaran tráfico desde los motores de búsqueda, eso estaba bien”, dijo Huffman a Bloomberg. “Pero ahora la gente está usando los datos de Reddit para entrenamiento, los están revendiendo, están haciendo resúmenes de búsqueda en lugar de enviarnos enlaces”.
Google es el único actor importante conocido en el campo de la inteligencia artificial que tiene un acuerdo con Reddit. La empresa propiedad de Alphabet firmó un acuerdo con los datos de Reddit para entrenar su modelo de inteligencia artificial por 60 millones de dólares anuales. Reuters reportado en febrero.
Esta no es la primera vez que Microsoft, Anthropic y Perplexity han sido criticados por entrenar sus modelos utilizando datos sin permiso.
En junio, se descubrió que Anthropic y OpenAI, respaldados por Microsoft, tenían violado una regla conocida como robots.txt, que niega a los rastreadores web el permiso para acceder y recopilar contenido en ciertos sitios web.
Si bien es una regla no oficial, OpenAI y Anthropic han declarado públicamente que respetan el archivo robots.txt y no recopilan datos de sitios web que bloquear Una portavoz de OpenAI se negó a hacer comentarios, mientras que un portavoz de Anthropic no respondió a los correos electrónicos en los que se solicitaban comentarios.
El jefe de búsqueda de Microsoft publicado en X A principios de esta semana, Reddit bloqueó a Bing, “favoreciendo a otro motor”. Microsoft no respondió de inmediato a las solicitudes de comentarios.
La perplejidad también se metió en problemas. plagiar varios medios de comunicación. En junio, Forbes acusado Perplejidad por “copiar” varios artículos de varias publicaciones en su propio podcast e historias generadas por IA sin atribuir adecuadamente sus fuentes.
También se descubrió que el motor de búsqueda de inteligencia artificial había violado la regla robots.txt y estaba “parafraseando historias de WIRED y, a veces, resumiendo las historias de manera inexacta y con una atribución mínima”, escribió Con cable en una investigación de junio.
Perplexity no respondió a una solicitud de comentarios de Business Insider.
Debates Los principales actores de la IA han hablado mucho sobre los derechos de autor y el pago de datos para entrenar modelos de IA. La firma líder de capital de riesgo Andreessen Horowitz dijo el año pasado que pagar por los datos costaría a los desarrolladores “decenas o cientos de miles de millones de dólares al año en pagos de regalías” y haría mella en las inversiones en IA.
Si bien Meta también se ha mostrado escéptica sobre la posibilidad de llegar a acuerdos para obtener datos, la empresa ha… consideró acuerdos con editores de noticias para acceder a noticias y contenidos multimedia, informó BI en mayo.
La empresa matriz de BI, Axel Springer, firmó un acuerdo el año pasado con OpenAI para utilizar contenido de marcas como BI y Politico para entrenar sus modelos de IA.