El bloqueo de los bots de inteligencia artificial de Microsoft y otros ha sido un “dolor de cabeza”: CEO de Reddit

El director ejecutivo de Reddit, Steve Huffman, respalda la decisión de Reddit de impedir que las empresas rastree la información del sitio sin un acuerdo de inteligencia artificial.

La semana pasada, 404 Media notó que los motores de búsqueda que no eran Google estaban Ya no se incluyen publicaciones recientes de Reddit en los resultados. Esto se debió a que Reddit actualizó su Protocolo de Exclusión de Robots (archivo txt) para impedir que los bots rastree el sitio. El archivo dice: “Reddit cree en una Internet abierta, pero no en el mal uso del contenido público”. Desde que se conoció la noticia, OpenAI anunció Búsqueda en GPTque puede mostrar resultados recientes de Reddit.

El cambio se produjo un año después de que Reddit comenzara sus esfuerzos para detener el scraping gratuito, que Huffman inicialmente enmarcó como un intento de evitar que las empresas de inteligencia artificial ganaran dinero con el contenido de Reddit de forma gratuita. Este esfuerzo también llevó a Reddit a comenzar a cobrar por el acceso a la API (el alto precio llevó a muchos Aplicaciones de terceros de Reddit clausura).

En una entrevista con El borde Hoy, Huffman defendió los cambios que llevaron a que Google fuera temporalmente el único motor de búsqueda capaz de mostrar discusiones recientes de Reddit. Reddit y Google firmaron un acuerdo Acuerdo de formación en IA En febrero se dijo que su fortuna ascendía a 60 millones de dólares al año. No está claro cuánto Acuerdo de Reddit con OpenAI Vale la pena. Huffman dijo:

Sin estos acuerdos, no tenemos voz ni voto sobre cómo se muestran nuestros datos ni para qué se utilizan, lo que nos ha puesto ahora en la posición de bloquear a personas que no han estado dispuestas a llegar a un acuerdo sobre cómo nos gustaría que se utilicen o no nuestros datos.

Según The Verge, Huffman afirmó que Microsoft, Antrópicoy Perplejidad No hemos estado negociando. Las tres compañías no han hecho comentarios sobre la entrevista de Huffman.

“Ha sido un verdadero dolor de cabeza bloquear a estas empresas”, dijo Huffman a The Verge.

Una persona familiarizada con el asunto le dijo anteriormente a Ars que Microsoft se ha negado a firmar un acuerdo que se adhiera a las reglas de privacidad de datos de Reddit. En una entrevista con The Verge, Huffman afirmó que Microsoft utilizó anteriormente datos de Reddit para el entrenamiento de IA y los resúmenes de resultados de Bing, pero no se lo dijo a Reddit. También afirmó que los datos de Reddit “se han vendido a través de la API de Bing a otros motores de búsqueda”, según The Verge.

Debate sobre la IA

Un portavoz de Microsoft me dijo la semana pasada que “Microsoft respeta el estándar robots.txt y respetamos las instrucciones proporcionadas por los sitios web que no quieren que el contenido de sus páginas se utilice con nuestros modelos de IA generativa”. Pero como señaló The Verge, Jordi Ribas, vicepresidente corporativo de búsqueda e IA de Microsoft, se dirigió a X el 29 de julio para enfatizar cómo los cambios en Reddit favorecen a Google “impactando en la competencia de Bing y los motores impulsados ​​por Bing”.

Según se informa, Huffman también hizo referencia a un incidente ocurrido en junio. Entrevista de CNBC Mustafa Suleyman, director ejecutivo de Microsoft AI, dijo: “Creo que, con respecto al contenido que ya está en la web abierta, el contrato social de ese contenido desde los años 90 ha sido que se trata de un uso legítimo. Cualquiera puede copiarlo, recrearlo, reproducirlo. Eso ha sido freeware, por así decirlo. Ese ha sido el entendimiento”. Suleyman agregó que su comentario no se refería a ciertos tipos de contenido web, como las organizaciones de noticias.

“Hemos visto a Microsoft, Anthropic y Perplexity actuar como si todo el contenido de Internet fuera gratuito para ellos. Esa es su verdadera postura”, dijo Huffman.

Reddit no ha revelado cuánto dinero se necesita para los acuerdos que permitirían el scraping de Microsoft, Perplexity, Anthropic o empresas más pequeñas. El portavoz de Reddit, Tim Rathschmidt, dijo a Ars la semana pasada que Reddit ha estado en conversaciones “con varios motores de búsqueda” y que Reddit está “abierto a trabajar con socios grandes y pequeños”.

Es probable que Reddit esté apuntando a grandes acuerdos de IA, que considera una parte importante de son negociosColin Hayhurst, director ejecutivo del motor de búsqueda Mojeek, dijo a Ars la semana pasada que Reddit no respondió a sus correos electrónicos sobre el bloqueo de Mojeek hasta que salió el informe de 404 Media.

Los esfuerzos de Reddit por encontrar nuevas fuentes de ingresos mientras intenta ser rentable por primera vez se han visto plagados de contratiempos, incluido un enorme Protesta de los usuarios en respuesta a los cambios en las reglas de la API de Reddit. La empresa busca cerrar acuerdos en un momento en el que los editores, la industria musical y otros sectores están lidiando con la legalidad de los bots de inteligencia artificial y buscan sentar precedentes. La dependencia de Reddit de contenido gratuito generado por los usuarios complica aún más el debate.

Advance Publications, propietaria de Condé Nast, empresa matriz de Ars Technica, es el mayor accionista de Reddit.

Fuente