Apple ha detallado en un documento de investigación cómo entrenó sus últimos modelos de IA generativa utilizando los aceleradores de redes neuronales de Google en lugar de, por ejemplo, el más moderno hardware de Nvidia.
El papel (PDF), titulado “Modelos de lenguaje de Apple Intelligence Foundation”, ofrece un análisis profundo del funcionamiento interno de la versión del gigante del iPhone de los LLM, desde el entrenamiento hasta la inferencia.
Estos modelos de lenguaje son las redes neuronales que convierten las consultas y los mensajes en texto e imágenes, y alimentan el llamado Inteligencia de Apple características siendo horneado en los sistemas operativos de Cupertino. Pueden realizar tareas como resumir textos y sugerir palabras para los mensajes.
Mientras que la mayoría de las organizaciones de IA claman por las GPU de Nvidia, especialmente la H100 hasta que llegue Blackwell (y pueden estar considerando ofertas de AMD, Intel y otros), cuando se trata de entrenar sistemas de aprendizaje automático, Apple decidió elegir el silicio de la Unidad de Procesamiento Tensor (TPU) de Google. No es del todo sorprendente, ya que el gigante de Mac y Nvidia han estado en malos términos durante algunos años por varias razones, y parece que Cook & Co tienen poco interés en arreglar las cosas por el bien del entrenamiento de los Modelos de Fundación de Apple (AFM).
Lo sorprendente es que Apple no recurrió a GPU Radeon de AMDque anteriormente suministraba chips para dispositivos Mac. En cambio, Apple eligió a Google y sus procesadores TPU v4 y TPU v5 para desarrollar AFM en datos de entrenamiento.
Sí, este es el mismo Google que Apple. criticado La semana pasada se habló de la privacidad del usuario en relación con la publicación de anuncios en línea. Pero en lo que respecta al hardware, todo parece ir sobre ruedas.
El modelo de IA del lado del servidor de Apple, AFM-server, se entrenó en 8192 chips TPU v4, mientras que AFM-on-device utilizó 2048 procesadores TPU v5 más nuevos. Como referencia, Nvidia afirma que entrenar un modelo de IA de clase GPT-4 requiere alrededor de 8000 GPU H100, por lo que parecería que, según la experiencia de Apple, el TPU v4 es aproximadamente equivalente, al menos en términos de cantidad de aceleradores.
Para Cupertino, puede que no se trate solo de evitar el uso de GPU de Nvidia. Desde 2021, las TPU de Google han Ha visto un crecimiento explosivohasta el punto que sólo Nvidia e Intel tienen mayor cuota de mercado según un estudio de mayo.
Los usuarios prefieren las respuestas de nuestros modelos, afirma Apple
Apple afirma que sus modelos superan a algunos de los de Meta, OpenAI, Anthropic e incluso a los de Google. El artículo de investigación no entra en muchos detalles sobre las especificaciones del servidor AFM, aunque sí habla mucho sobre cómo AFM-on-device tiene poco menos de tres mil millones de parámetros y ha sido optimizado para tener un cuantificación de menos de cuatro bits en promedio por razones de eficiencia.
Aunque los modelos de IA pueden evaluarse con parámetros estandarizados, Apple afirma que “considera que la evaluación humana se alinea mejor con la experiencia del usuario y proporciona una mejor señal de evaluación que algunos parámetros académicos”. Con ese fin, iMaker presentó a personas reales dos respuestas diferentes para la misma pregunta de diferentes modelos y les pidió que eligieran cuál era mejor.
Sin embargo, no se proporcionan indicaciones ni respuestas, por lo que tendrás que confiar en la palabra de Apple.
Si bien Apple afirmó que sus AFM son “a menudo preferidos por los humanos que califican sus resultados sobre los modelos de la competencia”, sus modelos en realidad solo parecieron obtener el segundo o tercer lugar en general. El AFM en el dispositivo ganó más a menudo de lo que perdió contra Gemma 7B, Phi 3 Mini y Mistral 7B, pero no pudo obtener la victoria contra LLaMa 3 8B. El documento no incluyó números para GPT-4o Mini.
Mientras tanto, el servidor AFM no estuvo a la altura de GPT-4 y LLaMa 3 70B. Probablemente podamos suponer que no le va demasiado bien contra GPT-4o y Llama 3.1 405B cualquiera.
Apple se justifica en cierta medida al demostrar que AFM-on-device superó a todos los modelos pequeños para la herramienta de resumen de Apple Intelligence, a pesar de ser el modelo más pequeño probado. Sin embargo, esa es solo una característica y es curioso por qué Apple no mostró datos similares para otras herramientas.
Cupertino también se adjudica una gran victoria en la generación de contenido seguro. Mientras que AFM-on-device y -server generaron respuestas dañinas el 7,5 por ciento y el 6,3 por ciento del tiempo respectivamente, todos los demás modelos lo hicieron al menos el diez por ciento del tiempo, aparentemente. Mistral 7N y Mixtral 8x22B fueron aparentemente los mayores infractores con el 51,3 por ciento y el 47,5 por ciento cada uno, afirmó Apple. ®