Los nuevos modelos Phi-3.5 de Microsoft superan a Gemini 1.5 Flash, Llama 3.1 y GPT-4o

Microsoft ha lanzado los nuevos modelos Phi-3.5:

  • Phi-3.5-MoE-instrucciones,
  • Phi-3.5-mini-instrucciones, y
  • Phi-3.5-visión-instrucciones.

La instrucción Phi-3.5-mini-instruct, con 3,82 mil millones de parámetros, está diseñada para tareas de razonamiento básico y rápido.

La instrucción Phi-3.5-MoE, con 41.9 mil millones de parámetros, maneja un razonamiento más avanzado.

El Phi-3.5-vision-instruct, con 4,15 mil millones de parámetros, está diseñado para tareas de visión como análisis de imágenes y videos.

Phi-3.5 MOE-instrucciones

Phi-3.5-MoE instruct es un modelo de código abierto de 42 mil millones de parámetros.

Cuenta con 16 expertos, dos de ellos activados durante la generación, y tiene 6.6 mil millones de parámetros involucrados en cada inferencia.

Demuestra mejoras significativas en las capacidades de razonamiento, superando a modelos más grandes como Llama 3.1 8B y Gemma 2 9B en varios puntos de referencia.

El modelo admite aplicaciones multilingües y extiende su longitud de contexto a 128.000 tokens.

Sin embargo, no están claros los idiomas específicos cubiertos.

Phi-3.5-MoE queda ligeramente por detrás de GPT-4o-mini, pero supera a Gemini 1.5 Flash en los puntos de referencia.

El modelo está diseñado para usarse en entornos con limitaciones de memoria y computación y en escenarios sensibles a la latencia.

Los casos de uso clave para Phi-3.5-MoE incluyen:

  • sistemas de IA de propósito general,
  • aplicaciones que requieren un razonamiento sólido en el código,
  • matemáticas,
  • lógica, y
  • como componente fundamental para funciones impulsadas por IA generativa

Phi-3.5-mini-instrucciones

Con 3.8 mil millones de parámetros, este modelo es ligero pero potente. Supera a modelos más grandes como Llama3.1 8B y Mistral 7B.

Admite una longitud de contexto de token de 128K, significativamente más que sus principales competidores, que normalmente solo admiten hasta 8K.

Como opción en tareas de contexto largo, como resumen de documentos y recuperación de información, supera a varios modelos más grandes como Llama-3.1-8B-instruct y Mistral-Nemo-12B-instruct-2407 en varios puntos de referencia.

El modelo está destinado a;

  • uso comercial y de investigación,

particularmente en entornos con limitaciones de memoria y computación,

  • escenarios con latencia limitada y
  • aplicaciones que requieren un razonamiento sólido en código, matemáticas y lógica.

Phi-3.5-visión-instrucciones

Phi-3.5 Vision es un modelo de 4.2 mil millones de parámetros y se destaca en la comprensión y el razonamiento de imágenes de múltiples cuadros.

Ha demostrado un rendimiento mejorado en puntos de referencia como MMMU, MMBench y TextVQA, lo que demuestra su capacidad en tareas visuales.

Incluso supera a OpenAI GPT-4o en varios puntos de referencia.

El modelo integra un codificador de imágenes, un conector, un proyector y el modelo de lenguaje Phi-3 Mini.

Con una longitud de contexto de 128 000 tokens, admite entradas de texto e imágenes y está optimizado para indicaciones que utilizan un formato de chat.

El modelo se entrenó durante 6 días utilizando 256 GPU A100-80G, procesando 500 mil millones de tokens que incluyen datos de visión y texto.

Los modelos Phi-3.5 ya están disponibles en la plataforma AI Cara abrazada bajo una licencia MIT.

Son accesibles para una amplia gama de aplicaciones.

El lanzamiento de los modelos Phi-3.5 se alinea con el compromiso de Microsoft de proporcionar herramientas de inteligencia artificial de código abierto que sean eficientes y versátiles.



Fuente