El dominio de búsqueda de Google deja a los sitios con pocas opciones en cuanto al rastreo de datos por IA

Las respuestas de inteligencia artificial que Google coloca ahora en la parte superior de sus resultados de búsqueda tienen un alto costo para los sitios web que los usuarios visitarían de otro modo. Pero muchos propietarios de sitios web dicen que no pueden permitirse el lujo de bloquear la inteligencia artificial de Google para que no resuma su contenido.

Esto se debe a que la herramienta de Google que examina el contenido web para obtener respuestas de inteligencia artificial es la misma que realiza un seguimiento de las páginas web para obtener resultados de búsqueda, según los editores. Bloquear Google de Alphabet Inc. de la misma manera que los sitios han bloqueado a algunos de sus competidores de inteligencia artificial también obstaculizaría la capacidad de un sitio para ser descubierto en línea.

El dominio de Google en el campo de las búsquedas (que un tribunal federal estadounidense dictaminó la semana pasada que es un monopolio ilegal) le está dando una ventaja decisiva en las guerras de la inteligencia artificial que se están gestando, que las empresas emergentes y los editores de búsquedas consideran injustas a medida que la industria toma forma. El dilema es particularmente grave para los editores, que se enfrentan a una elección entre ofrecer su contenido para que lo utilicen modelos de inteligencia artificial que podrían dejar obsoletos sus sitios y desaparecer de la búsqueda de Google, una de las principales fuentes de tráfico.

“Se convierte en una especie de crisis existencial para estas empresas”, dijo Joe Ragazzo, editor del sitio de noticias Talking Points Memo. “Son dos malas opciones. Te retiras y mueres inmediatamente, o te asocias con ellas y probablemente mueras lentamente, porque al final tampoco te van a necesitar”.

Google afirmó que las vistas generales con inteligencia artificial (AI Overviews), los resúmenes que se muestran en la parte superior de la búsqueda de Google, forman parte de su compromiso de larga data de ofrecer información de mayor calidad y reforzar las oportunidades para los editores y otras empresas. “Todos los días, Google envía miles de millones de clics a sitios de toda la web, y tenemos la intención de que este intercambio de valor establecido desde hace mucho tiempo con los sitios web continúe”, afirmó un portavoz de Google en un comunicado. “Con AI Overviews, las personas encuentran la búsqueda más útil y vuelven a buscar más, lo que crea nuevas oportunidades para descubrir contenido”.

Desde sus inicios, Google ha implementado un software conocido como Googlebot para visitar o “rastrear” millones de sitios web, creando un repositorio detallado de Internet global. Ese índice ha planteado una barrera de entrada desalentadora para las empresas que han intentado crear motores de búsqueda rivales a lo largo de los años, incluso aquellas con mucho dinero, como Microsoft Corp.

El auge de la IA generativa ha desencadenado una nueva ola de empresas emergentes que buscan ofrecer productos de búsqueda en los que los modelos de IA brinden respuestas concisas a las preguntas de los usuarios. La popularidad de los chatbots ha desatado el pánico en Google sobre el futuro de su motor de búsqueda, que durante tanto tiempo pareció invencible. Pero antes de que estas empresas emergentes puedan realmente amenazar el negocio del gigante de las búsquedas, deben rastrear la web. Y eso no es una tarea fácil.

El rastreo cuesta dinero, potencia informática y almacenamiento a los propietarios de sitios web, por lo que muchos editores incluyen un archivo que establece reglas para los robots que visitan sus sitios. Las empresas a las que se les da más margen de maniobra suelen ser Google y Bing de Microsoft, que pueden dirigir el tráfico a los sitios a través de sus motores de búsqueda.

Pero las empresas emergentes de búsqueda no pueden prometer ese tráfico antes de ganar tracción, lo que es una de las razones por las que las empresas jóvenes han comenzado a llegar a acuerdos para pagar a los editores para que licencien contenido, dijo Alex Rosenberg, director ejecutivo de Tako Inc., una empresa emergente de inteligencia artificial.

“Ahora hay muchas empresas tecnológicas que pagan por el contenido, pagan por el acceso a él porque lo necesitan para poder competir de alguna manera seria”, dijo Rosenberg. “Mientras que Google no tiene por qué hacer eso”.

En medio de una ola de acuerdos entre empresas de medios y empresas emergentes de inteligencia artificial, Google ha sido un notable reticente. Con la excepción de un acuerdo de 60 millones de dólares con Reddit Inc., Google ha dado señales a los editores a puerta cerrada de que no está interesado en negociar, según dos personas con conocimiento del asunto, que pidieron no ser identificadas porque la información es privada.

Las empresas de medios tienen poca influencia en estas conversaciones. A principios de este año, Google lanzó AI Overviews, en el que la empresa utiliza la inteligencia artificial para dar respuestas sucintas a algunas de las preguntas de los usuarios en la parte superior de la página de búsqueda. Los editores se preocuparon inmediatamente por el impacto que las respuestas podrían tener en su tráfico, pero no tenían una forma clara de abordar esos temores.

Google utiliza un rastreador independiente para algunos productos de IA, como su chatbot Gemini. Pero su rastreador principal, Googlebot, sirve tanto a AI Overviews como a la búsqueda de Google. Un portavoz de la empresa dijo que Googlebot gobierna AI Overviews porque la IA y el motor de búsqueda de la empresa están profundamente entrelazados. El portavoz agregó que su página de resultados de búsqueda muestra información en una variedad de formatos, incluidas imágenes y gráficos. Google también dijo que los editores pueden bloquear páginas específicas o partes de páginas para que no aparezcan en AI Overviews en los resultados de búsqueda, pero eso probablemente también impediría que esos fragmentos aparezcan en todas las demás funciones de búsqueda de Google, incluidas las listas de enlaces web.

Muchos editores, que a menudo dependen de los motores de búsqueda para al menos la mitad de su tráfico, no están dispuestos a correr el riesgo de minimizar su alcance.

La postura de Google “subestima el riesgo significativo que esto supone para los creadores de contenido, en particular para aquellos que dependen de la visibilidad en las búsquedas para su sustento”, dijo Marc McCollum, quien dirige la innovación en Raptive, que representa a editores e influencers. “Al optar por no participar, los creadores pueden reducir inadvertidamente su presencia general en las búsquedas, lo que podría perjudicar su capacidad para llegar a las audiencias y generar ingresos”.

Kyle Wiens, director ejecutivo de iFixit, un sitio web que publica guías gratuitas de reparación en línea para productos electrónicos de consumo, dijo que la relación del sitio con Google es “mucho más tenue” que con otras empresas de inteligencia artificial. “Puedo impedir que ClaudeBot nos indexe sin perjudicar nuestro negocio”, escribió Wiens en un correo electrónico, refiriéndose al bot de la startup de inteligencia artificial generativa Anthropic. “Pero si bloqueo a Googlebot, perdemos tráfico y clientes”.

El acuerdo de Google con Reddit, donde millones de usuarios participan en acalorados debates sobre temas específicos, ofrece a la empresa un tesoro de información para los modelos de IA. El acuerdo coincidió con los cambios que realizó Google que impulsaron la presencia de resultados de foros como Reddit en los resultados de búsqueda, lo que generó enormes ganancias en el tráfico al sitio de redes sociales. Un portavoz de Reddit dijo que las mejoras en la calidad y la velocidad del producto también han contribuido al crecimiento del tráfico.

La startup de búsqueda Perplexity está en conversaciones con Reddit sobre la concesión de licencias de contenido, pero el acuerdo con Google ha fijado una tarifa que es difícil de igualar para una startup, según una persona familiarizada con el asunto. Google dijo que el acuerdo con Reddit es una asociación de largo alcance que abarca más que los datos de entrenamiento. El portavoz de Reddit se negó a hacer comentarios sobre las conversaciones comerciales. Perplexity se negó a hacer comentarios.

Otras empresas emergentes de búsqueda han llegado a la conclusión de que los datos están simplemente fuera de su alcance.

“Necesitaríamos 20 años de nuestros ingresos actuales solo para pagar a Reddit”, dijo Vladimir Prelovac, fundador de Kagi, una startup de búsqueda. “Esa es una posibilidad que ni siquiera estoy considerando”.

Las pequeñas empresas emergentes no están solas en sus problemas. OpenAI lanzó recientemente SearchGPT, una versión de prueba de su popular chatbot diseñado para búsquedas. Sin embargo, sitios web populares como Amazon, Goodreads y Uniqlo han bloqueado el rastreador GPT de sus sitios, según documentación pública, lo que podría suponer un problema para las ambiciones de OpenAI en materia de búsquedas. OpenAI ha dicho que los sitios pueden aparecer en sus resultados de búsqueda incluso si eligen excluir su contenido del entrenamiento de IA.

Prelovac dijo que al menos la mitad de los costos de Kagi se destinan al rastreo y otras fuentes de datos de búsqueda. Un índice detallado de la web es una apuesta segura para un motor de búsqueda, para ofrecer a los usuarios una vista detallada de los contenidos de Internet. Sin embargo, para las empresas que buscan responder las preguntas de los usuarios directamente utilizando IA, un modelo popularizado por ChatGPT, los datos adquieren otro nivel de importancia, dijo Prelovac.

“Los modelos de IA generativa por sí solos no son muy inteligentes”, dijo Prelovac. “Para tener algún tipo de resultado de IA generativa de alta calidad, es necesario tener acceso a ese mismo índice de búsqueda”.

La ubicuidad de los archivos robots.txt, que establecen pautas para el rastreo, obliga a las empresas emergentes a tomar decisiones complejas, dijo Richard Socher, fundador de la empresa emergente de búsqueda You.com. No se ha determinado que los archivos sean legalmente vinculantes, por lo que las empresas pueden rastrear datos públicos siempre que no se requieran credenciales de inicio de sesión o de suscripción, dijo Socher.

“Cuando rastreamos, tratamos de no sobrecargar ningún sitio web”, dijo. “Cualquier sitio web que tenga un archivo robots.txt que solo permita que Google rastree y nadie más, esencialmente respalda un monopolio de búsqueda de Google”.

Neeva, una startup de búsqueda fundada por ex empleados de Google que fue comprada por Snowflake Inc. el año pasado, abogó por la “neutralidad de rastreo” para facilitar a las startups la creación de sus índices de búsqueda. A raíz de una sentencia judicial histórica que determinó que Google monopolizaba el mercado de búsquedas en línea, el Departamento de Justicia está considerando buscar soluciones que incluyen obligar al gigante de las búsquedas a compartir más datos con competidores e incluso dividir la empresa, según informó Bloomberg. Una propuesta que ha atraído considerable atención es exigir a Google que comparta los datos que recopila a través de Googlebot, o que abra su famoso índice de búsqueda a sus rivales. La Ley de Mercados Digitales de la Unión Europea ya exige que Google comparta algunos datos de consultas de búsqueda.

Para Wiens, el director ejecutivo de iFixit, la ventaja que tiene Google sobre otras empresas de inteligencia artificial gracias a su imperio de búsquedas es el núcleo de los problemas antimonopolio que enfrenta la empresa. “Separar la búsqueda de Google de su trabajo en inteligencia artificial”, dijo, “desconcertaría las cosas”.

El motor de búsqueda DuckDuckGo dijo que los cambios tecnológicos que se están produciendo en el campo de las búsquedas hacen que “el índice de Google relacionado con las preocupaciones antimonopolio sea aún más problemático”.

“Los índices de búsqueda son extremadamente importantes en la era de la IA generativa”, afirmó Kamyl Bazbaz, vicepresidente sénior de asuntos públicos de DuckDuckGo.

Independientemente del resultado del caso antimonopolio, los cambios que se están produciendo en el panorama de las búsquedas subrayan la importancia de que los editores controlen su propio destino y no dependan demasiado de ninguna plataforma tecnológica, incluido Google, dijo Ragazzo de TPM.

“Creemos que hay que forjar relaciones reales con los lectores”, dijo Ragazzo, “y así es como se construye una publicación que pueda resistir diferentes épocas”. – Bloomberg

Fuente