Los motores de búsqueda que no son de Google no pueden mostrar resultados recientes de Reddit

Las discusiones recientes en Reddit ya no aparecen en los resultados de búsqueda de motores que no sean Google. La ausencia es el resultado de las actualizaciones de Reddit Política de contenido que prohíben rastrear su sitio sin aceptar las reglas de Reddit, que prohíben usar contenido de Reddit para entrenamiento de IA sin el consentimiento explícito de Reddit.

Según lo informado por 404 Mediosal utilizar “site:reddit.com” en motores de búsqueda que no sean Google, incluidos Bing, DuckDuckGo y Mojeek, se obtienen resultados mínimos o nulos de Reddit de la semana pasada. Ars Technica realizó búsquedas en estos y otros motores de búsqueda y puede confirmar los hallazgos. Brave, por ejemplo, a veces muestra algunos resultados de Reddit (ejemplos aquí y aquí) pero no tantos como los que aparecen en Google cuando se utilizan consultas idénticas. Uno de los más destacados es Kagi, un motor de pago que paga a Google por parte de su índice de búsqueda y aún muestra resultados recientes de Reddit.

Como señaló 404 Media, el Protocolo de Exclusión de Robots de Reddit (archivo robots.txt) impide que los robots rastree el sitio. El protocolo también establece que “Reddit cree en una Internet abierta, pero no en el uso indebido de contenido público”. Reddit ha aprobado los raspadores del Archivo de Internet y algunas entidades centradas en la investigación.

Reddit Anunciado cambios en su archivo robots.txt el 25 de junio. Antes de los cambios, dicho “Había visto un aumento en las entidades obviamente comerciales que piratean Reddit y argumentan que no están sujetas a nuestros términos o políticas. Peor aún, se esconden detrás de robots.txt y dicen que pueden usar el contenido de Reddit para cualquier propósito que quieran”.

El mes pasado, Reddit dijo que cualquier “actor de buena fe” podría comunicarse con Reddit para intentar trabajar con la empresa, vinculando a un formulario en lineaSin embargo, Colin Hayhurst, director ejecutivo de Mojeek, me dijo por correo electrónico que se puso en contacto con Reddit después de que lo bloquearan, pero que Reddit “no respondió a muchos mensajes y correos electrónicos”. Señaló que desde el informe de 404 Media, el director ejecutivo de Reddit, Steve Huffman, se puso en contacto con él.

El dominio de las búsquedas de Google se fortalece

Dado que Google es prácticamente el único motor de búsqueda que puede mostrar resultados recientes de Reddit (al menos por ahora), Reddit ha ayudado inadvertidamente a restringir El dominio absoluto de Google sobre la industria de búsqueda. El cambio se produce en medio de recientes preocupaciones sobre la calidad de los resultados de Google, que han clasificado Posicionamiento en buscadores (SEO) y Granjas de spam de IAanuncios y enlaces de comercio electrónico más altos que los resultados más relevantes. También hay preocupaciones Acerca de Google Descripción general de la IA.

Cuando se le pidió un comentario, el portavoz de Reddit, Tim Rathschmidt, dijo por correo electrónico que Reddit ha estado en conversaciones “con varios motores de búsqueda”. Agregó:

No hemos podido llegar a acuerdos con todos ellos, ya que algunos no pueden o no quieren hacer promesas exigibles respecto de su uso del contenido de Reddit, incluido su uso para IA.

Después de que Reddit declarara la guerra al uso gratuito de su contenido para el entrenamiento de IA (lo que también resultó en un aumento del precio de acceso a la API que cerró muchas Aplicaciones de terceros de Reddit), Reddit firmó un acuerdo por un valor de 60 millones de dólares al año que le permite Google utiliza datos de Reddit para entrenar a su IA. Se esperaba que Reddit intentara llegar a un acuerdo similar con Microsoft, pero parece que las partes no pudieron llegar a un acuerdo acorde con el de Reddit. Política de contenidoque también incluye reglas sobre la privacidad del usuario y el contenido eliminado, por ejemplo.

Un portavoz de Microsoft me dijo: “Respetamos el estándar robots.txt”.

Una declaración compartida con Tierra de los motores de búsqueda Bing fue más allá y agregó: “Bing dejó de rastrear Reddit después de implementar su archivo robots.txt actualizado el 1 de julio, que prohíbe todo rastreo de su sitio”. En octubre, El Washington Postcitando una fuente anónima, informó que Reddit estaba considerando bloquear los rastreadores de búsqueda de Bing si no podía llegar a un acuerdo con Microsoft.

Como señaló 404 Media, Reddit guía Para acceder a sus datos, Reddit menciona “anuncios de búsqueda o de sitios web” como un uso comercial que justifica el pago de tarifas. No está claro cuánto dinero tendrían que gastar otros motores de búsqueda para que se les permitiera extraer datos de la plataforma. Rathschmidt dijo que Reddit está “abierto a trabajar con socios grandes y pequeños”.

“Es malo para la salud de Internet que las empresas con fines de lucro copien nuestro contenido sin restricciones y lo utilicen, entre otras cosas, para (entrenar) modelos de inteligencia artificial”, dijo.

Por ahora, Google puede seguir apoyándose en Reddit para ayudar a que los resultados de búsqueda sean más relevantesGoogle no respondió a la solicitud de comentarios de Ars.

Mientras tanto, a los motores de búsqueda alternativos puede resultarles más difícil competir.

“Con nuestros propios algoritmos de clasificación, antes los usuarios solían encontrar páginas en Reddit diferentes a las que encontrarían en Google y otros”, me dijo Hayhurst de Mojeek.

El director ejecutivo añadió que, si bien el bloqueo de Reddit por sí solo “no es un gran problema”, le preocupa el precedente que podría sentar. “Los motores de búsqueda son la principal fuente de tráfico para la mayoría de los sitios web, y la propagación de este comportamiento reducirá aún más el tráfico. Y los sitios más pequeños se verán afectados incluso más que los sitios grandes”, afirmó.

Advance Publications, propietaria de Condé Nast, empresa matriz de Ars Technica, es el mayor accionista de Reddit.

Fuente