El New York Times y otros bloquean la formación de Apple Intelligence

Las futuras ampliaciones de Apple Intelligence podrían implicar más socios de IA y suscripciones pagas


Los propietarios de sitios web tienen un mecanismo simple para informar Inteligencia de Apple no para raspar el sitio con fines de capacitación, y, según se informa, las principales plataformas como Facebook y el New York Times lo están utilizando.

Apple ha estado ofreciendo a los editores millones de dólares por el derecho a raspar sus sitios, a diferencia de Google, que cree que todos los datos deben ser libremente disponible para entrenar módulos de lenguaje grandes de IA. Como parte de esto, Apple respeta un sistema en el que un sitio puede simplemente indicar en un archivo en particular que no desea que se rasque.

Ese archivo es un texto simple. llamado robots.txty según Cableadomuchos editores importantes están eligiendo usar esto para bloquear el entrenamiento de IA de Apple.

Este archivo robots.txt no supone una barrera técnica para el scraping, ni siquiera una barrera legal, y hay empresas que se sabe que ignoran el bloqueo.

Según se informa, muchos sitios de noticias están bloqueando Apple Intelligence. Entre los más importantes se incluyen:

  • El New York Times
  • Facebook
  • Instagram
  • Lista de Craigslist
  • Timbr
  • El tiempo financiero
  • El Atlántico
  • EE.UU. hoy
  • Condé Nast

En el caso de Apple, Cableado Según dos estudios principales realizados la semana pasada, entre el 6% y el 7% de los sitios web con mucho tráfico bloquean la herramienta de búsqueda de Apple, llamada Applebot-Extended. Otro estudio realizado por Ben Welsh, también realizado la semana pasada, indica que poco más del 25% de los sitios web controlados lo bloquean.

La discrepancia se debe a qué conjuntos de sitios web de alto tráfico se investigaron. El estudio galés, a modo de comparación, descubrió que el bot de OpenAI está bloqueado por el 53 % de los sitios de noticias consultados, y el equivalente de Google, Google-Extended, está bloqueado por casi el 43 %.

Cableado concluye que, si bien a los sitios podría no importarles si Apple Intelligence está extrayendo sus datos, la principal razón de las bajas cifras de bloqueo es que el bot de inteligencia artificial de Apple es demasiado poco conocido para que las empresas lo noten.

Sin embargo, Apple Intelligence no se esconde exactamente en la oscuridad, y AppleBot-Extended es un superconjunto de AppleBot. Esto fue detectado por primera vez en sitios en noviembre de 2014 y revelado oficialmente por Apple en Mayo de 2015.

Así, durante diez años, AppleBot ha estado buscando y rastreando sitios web, y lo ha hecho con el fin de impulsar… Siri y búsquedas de Spotlight.

En consecuencia, es menos probable que los propietarios de sitios web no hayan oído hablar de Apple Intelligence, y es más probable que hayan oído hablar de Apple. acuerdos que valen millonesMientras las negociaciones continúan, o posiblemente comiencen, algunos sitios están bloqueando deliberadamente Apple Intelligence.

Eso incluye El New York Timesque también está demandando a OpenAI por violación de derechos de autor debido a su extracción de inteligencia artificial.

“Como lo establecen claramente la ley y las condiciones de servicio del Times, está prohibido copiar o usar nuestro contenido con fines comerciales sin nuestro permiso previo por escrito”, afirma Charlie Stadtlander del periódico. “Es importante destacar que la ley de derechos de autor sigue aplicándose independientemente de si se han implementado o no medidas técnicas de bloqueo”.

Fuente