La empresa matriz de TikTok lanzó un raspador web que está consumiendo los datos en línea del mundo 25 veces más rápido que OpenAI.

ByteDance parece estar ansioso por recuperar el tiempo perdido cuando se trata de buscar en la web los datos necesarios para entrenar sus modelos generativos de IA.

La empresa matriz con sede en China de la aplicación de vídeo TikTok lanzó su propio rastreador web o robot raspador, denominado Bytespider, en algún momento de abril, según una investigación de Kasada, una empresa que se especializa en la gestión de bots para empresas con datos en línea. La existencia del bot también fue confirmada por Dark Visitantes, que monitorea los robots raspadores.

El bot de ByteDance se ha convertido rápidamente en uno de los raspadores más agresivos de Internet, si no el más agresivo, según muestra la investigación. Está extrayendo datos a un ritmo que es mucho mayor que el de otras empresas importantes, como (Googlemeta, AmazonasOpenAI y Anthropic, que utilizan sus propios robots raspadores para ayudar a crear y mejorar sus grandes modelos de lenguaje o multimodales, conocidos como LLM o LMM.

Sam Crowther, director ejecutivo de Kasada, dijo que desde que apareció Bytespider, ha estado recopilando datos a una velocidad aproximadamente 25 veces mayor que GPTbot, que recopila datos para la plataforma ChatGPT de OpenAI y los modelos subyacentes, por ejemplo. Bytespider ha estado ganando 3.000 veces más que ClaudeBot, de Anthropic, que opera la plataforma Claude.

Con el paso de los meses, Bytespider se ha vuelto aún más agresivo, según Kasada. Los datos muestran enormes picos en la actividad de scraping de Bytespider durante cada una de las últimas seis semanas.

Los representantes de TikTok y ByteDance no respondieron a los correos electrónicos en busca de comentarios.

El agresivo scraping de ByteDance se produce a pesar de la posibilidad de que TikTok sea prohibido en los EE. UU. en los próximos meses. El presidente Joe Biden ha firmado una legislación que exige que ByteDance venda TikTok, debido a preocupaciones de seguridad nacional, o lo cierre.

El bot Bytespider, muy parecido a los de OpenAI y Anthropic, no respeta robots.txtmuestra la investigación. Robots.txt es una línea de código que los editores pueden colocar en un sitio web y que, si bien no es legalmente vinculante de ninguna manera, se supone que indica a los robots raspadores que no pueden tomar los datos de ese sitio web.

El web scraping se remonta a décadas atrás, principalmente por parte de los motores de búsqueda para recopilar enlaces a páginas web. Pero el auge de las herramientas de IA generativa ha añadido una nueva dimensión y ha convertido la práctica en una fuente principal de demandas y controversia. Las personas y organizaciones cuyo trabajo ha sido eliminado argumentan que se están infringiendo sus derechos de autor en el proceso. Todos los modelos que subyacen a las herramientas de IA generativa se entrenaron con cantidades masivas de datos en línea, de hecho, todo lo que está disponible en la web, en particular la información escrita. Las empresas de tecnología utilizan robots raspadores para copiarlo todo de forma gratuita y ponerlo en sus conjuntos de datos.

“Es como si estuvieran tratando desesperadamente de ponerse al día”, dijo Crowther sobre el agresivo raspado que está realizando Bytespider. El año pasado, ByteDance fue supuestamente muy atrás en la carrera de la IA generativa que estaba utilizando OpenAI para ayudar a construir el propio LLM de ByteDance, lo que va en contra de los términos de servicio de OpenAI. A principios de este año, ByteDance lanzó un LLM basado en chat. llamado duabopero el trabajo en ese modelo se habría completado antes de la acumulación de datos de entrenamiento más recientes extraídos por Bytespider.

Está “claro” que ByteDance está trabajando en un nuevo LLM, según una persona familiarizada con la empresa. En cuanto a lo que ByteDance planea hacer con un nuevo LLM, una persona familiarizada con las ambiciones de la compañía dijo que un objetivo tiene que ver con la función de búsqueda de TikTok.

La semana pasada, TikTok lanzó una actualización de su función de búsqueda actual centrada en palabras clave para anunciosbásicamente permitiendo a los anunciantes buscar en tiempo real palabras que son tendencia en TikTok. Permite a los especialistas en marketing crear un anuncio con palabras clave relevantes que aparentemente ayudarían a que el anuncio aparezca en las pantallas de más usuarios.

Un nuevo modelo de IA con datos sobre tendencias y temas de Internet más recientes podría expandir y mejorar aún más el entorno de búsqueda de TikTok, según la persona familiarizada con las ambiciones de la compañía.

“Dada la audiencia y la cantidad de uso, TikTok con un entorno de búsqueda que es un espacio completamente ofertable con palabras clave y temas, sería muy interesante para mucha gente que gasta un montón de dinero en Google en este momento”, dijo la persona. .

¿Es usted un empleado de TikTok o ByteDance o alguien con información o un consejo para compartir? Contacto Kali heno de forma segura a través de Señal al +1-949-280-0267 o en kali.hays@fortune.com.

Boletín recomendado
Ficha de datos: Manténgase al tanto del negocio de la tecnología con análisis detallados de los nombres más importantes de la industria.
Regístrese aquí.



Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here