Para crear poderosos AI modelos, necesitas montañas de buenos datos. Amazonas está haciendo todo lo posible para recopilar este tipo de información valiosa.

La empresa recientemente dijo a los empleados que se inscribieran en microsoft's plataforma de desarrollo de software GitHub y compartir sus cuentas para que Amazon pueda extraer datos de GitHub más rápidamente, según ha sabido Business Insider.

Este es un paso clave en los esfuerzos de Amazon para entrenar su próximo modelo interno de IA.

En un memorando interno compartido con los empleados el mes pasado, el Grupo de Inteligencia General Artificial de Amazon escribió que necesita “metadatos cuantitativos y cualitativos de GitHub” para fines de capacitación en IA.

Pero hay un problema. Una sola cuenta de GitHub solo puede realizar 5000 solicitudes de recopilación de datos por hora. Hay más de 150 millones de repositorios de datos públicos en GitHub, por lo que estas limitaciones de las cuentas significan que extraer toda esta información llevaría demasiado tiempo, según el memorando.

Para evitar esto, el AGI de Amazon El equipo está pidiendo a los empleados que creen nuevas cuentas de GitHub y las compartan con la empresa. Luego, Amazon puede ejecutar todas estas cuentas simultáneamente, reduciendo el tiempo para recopilar datos a sólo unas “pocas semanas”, según el memorando.

“Obtener todo esto con una sola cuenta llevaría muchos años”, explica el memorando. “Para aumentar la velocidad a la que podemos recopilar los metadatos, pedimos a los miembros del equipo que creen cuentas de GitHub y compartan las claves API”.

Rohit Prasad, Amazonas

El científico jefe de Amazon, Rohit Prasad

NurFoto



El liderazgo de Amazon está solicitando abiertamente la ayuda de los empleados con esta solución.

Rohit Prasad, científico jefe de Amazon y vicepresidente senior del grupo AGI, alentó a los empleados a compartir sus cuentas de GitHub para ayudar a “recopilar más datos de código de alta calidad para entrenar nuestros modelos básicos”, según un correo electrónico interno de finales de mayo, titulado “Ayuda con datos.”

Otro correo electrónico de un director de Amazon AGI instaba a los empleados: “¡Solo lleva 5 minutos!”

El episodio destaca la sed rabiosa de datos entre las empresas de tecnología que desarrollan sus propios modelos de IA. Estos modelos necesitan mucha información de alta calidad para volverse más inteligentes y parecidos a los humanos. Hay un suministro finito de esta información, lo que está llevando a una “guerra por los datos” entre las empresas de tecnología.

En el caso de Amazon, la empresa necesita más datos para entrenar internamente un nuevo modelo de IA que aún no se ha lanzado. denominado su proyecto de IA “más ambicioso”. Lanzar un modelo de IA nuevo y más potente es importante para Amazon, ya que la compañía está tratando de alcanzar a sus rivales Microsoft, Google y Meta en el espacio de la IA generativa.

Presuntas violaciones de licencia

Si bien la solución alternativa de GitHub probablemente acelerará el proceso de capacitación en inteligencia artificial de Amazon, podría generar preocupaciones éticas sobre el acceso a datos sin los permisos adecuados.

Es probable que Microsoft se sienta descontento cuando descubra que su archirrival Amazon se está apoyando mucho en GitHub para obtener datos de entrenamiento de IA.

Incluso el propio Microsoft es enfrentando una demanda por supuestamente violar acuerdos de licencia cuando utilizó datos de GitHub para entrenar su servicio Copilot AI.

“Amazon apoya la protección de los titulares de derechos y creadores de contenidos, así como los marcos legales establecidos que facilitan el desarrollo de servicios innovadores y beneficiosos”, dijo Amazon en un comunicado. “Nuestros LLM están capacitados en datos de una variedad de fuentes, incluidos datos patentados y con licencia, conjuntos de datos de código abierto y datos disponibles públicamente cuando corresponda. Si bien esta es un área en evolución, nos adherimos a las mejores prácticas de la industria en torno a la recopilación de datos para capacitar a nuestros modelos.”

La compañía también explicó que ha creado sistemas para “acreditar adecuadamente a los desarrolladores de código abierto si las sugerencias de código generadas son similares a sus proyectos”.

Los portavoces de GitHub y Microsoft no respondieron a las solicitudes de comentarios.

'Mostrando nuestra mano'

En el memorando interno, Amazon escribió que la solución alternativa de GitHub fue aprobada tanto por el equipo legal como por el de seguridad de la empresa.

Al seguir las pautas, Amazon se asegura de seguir los límites de tasas de GitHub y evitar que sus cuentas sean bloqueadas, dijo.

En términos de “mostrar nuestra mano”, decía el memorando, la medida de Amazon “no debería alarmar a nadie” porque la compañía está trabajando en varios productos al mismo tiempo, añadió.

Para los empleados interesados ​​en ayudar, el memorando decía que debían utilizar un correo electrónico del trabajo de Amazon, no una cuenta personal, para registrarse en GitHub.

También dijo que los empleados de Amazon deberían crear un “token personal clásico”, no un “token personal detallado”, al registrarse. Los tokens personales clásicos de GitHub brindan acceso a un conjunto más amplio de repositorios de código, aunque pueden ser menos seguros. según el sitio web de GitHub.

Las instrucciones de Amazon también decían que la caducidad de estos tokens debería establecerse en un año y que no se deberían seleccionar “alcances” para garantizar que el token tenga acceso de “solo lectura” a la información pública.

Una vez que se registran, los empleados de Amazon deben copiar y pegar sus tokens de acceso personal en un archivo compartido de la empresa, agrega el memorando.

Modelos 'más amplios'

Para Amazon, más datos son cruciales para su nuevo modelo de IA. El año pasado, el director ejecutivo de Amazon, Andy Jassy escribió en un correo electrónico interno que Prasad lideraría el equipo AGI recién creado, con el objetivo de construir los modelos de lenguaje grandes “más expansivos” para la empresa. Prasad ahora reporta directamente a Jassy.

Amazon puede estar detrás de algunos de sus competidores de IA, que han estado involucrados en una enorme apropiación de tierras para recopilar más datos de entrenamiento durante años.

OpenAI, por ejemplo, ha cerrado una serie de acuerdos de licencia con una larga lista de empresas, incluidas Reddit, Shutterstock y News Corp, para utilizar su contenido para la capacitación de modelos de IA. empresas de tecnología, hambriento de aún más datos de entrenamientoson también otorgándose nuevos permisos utilizar mucha más información de los consumidores.

Mientras tanto, el equipo AGI de Amazon ya pasó por una importante reestructuración. En noviembre, despidió a algunos de los empleados que trabajaban en proyectos relacionados con Alexa. como informó BI. Prasad también describió las seis nuevas áreas de enfoque para el grupo AGI en ese momento, incluidos modelos fundamentales y servicios de asistente conversacional. BI informado anteriormente.

¿Una posición complicada?

Aunque el equipo legal de Amazon aprobó la solución alternativa de extracción de datos de GitHub, la medida podría poner a Amazon en una posición complicada.

En 2022, el programador Matthew Butterick y el bufete de abogados Joseph Saveri presentó una demanda colectiva contra Microsoft, propietario de GitHub, alegando violaciones de licencias de código abierto. Microsoft entrenó su servicio Copilot AI con código disponible públicamente en GitHub, sin cumplir con las “licencias subyacentes de código abierto y otros requisitos legales”. según el sitio web de Joseph Saveri.

Si bien el código fuente abierto en GitHub es generalmente de uso gratuito, conlleva ciertas obligaciones, como preservar la atribución precisa del código fuente, Butterick escribió en el sitio web sobre la demanda. Para Copilot, es casi imposible dar crédito a la fuente original, ya que se basa en miles de millones de líneas de código de GitHub, mientras que Microsoft puede venderlo sin devolver nada a la comunidad de código abierto, escribió.

“Como Neo conectado a la matriz, o una vaca en una granja, Copilot quiere convertirnos en nada más que productores de un recurso a extraer (bueno, hasta que podamos disponer de nosotros por completo)”, escribió Butterick. “¿Y para qué? Incluso las vacas obtienen alimento y refugio del trato. Copilot no aporta nada a nuestros proyectos individuales. Y nada de código abierto en términos generales”.

¿Trabajas en Amazon? ¿Tienes un consejo?

Póngase en contacto con el periodista, Eugene Kim, a través de las aplicaciones de mensajería cifrada Signal o Telegram (+1-650-942-3061) o correo electrónico (ekim@businessinsider.com). Comuníquese utilizando un dispositivo que no sea de trabajo. Consulte Business Insider guía fuente para obtener otros consejos sobre cómo compartir información de forma segura.

Fuente