Cerebras ha presentado su último chip de inferencia de IA, que se promociona como un rival formidable para NvidiaEl DGX100 de
El chip cuenta con 44 GB de memoria de alta velocidad, lo que le permite manejar modelos de IA con miles de millones a billones de parámetros.
En el caso de los modelos que superan la capacidad de memoria de una sola oblea, Cerebras puede dividirlos en los límites de las capas y distribuirlos entre varios sistemas CS-3. Un solo sistema CS-3 puede albergar 20 mil millones de modelos de parámetros, mientras que 70 mil millones de modelos de parámetros pueden gestionarse con tan solo cuatro sistemas.
Próximamente se ofrecerá compatibilidad con modelos adicionales
Cerebras enfatiza el uso de pesos de modelo de 16 bits para mantener la precisión, a diferencia de algunos competidores que reducen la precisión de los pesos a 8 bits, lo que puede degradar el rendimiento. Según Cerebras, sus modelos de 16 bits funcionan hasta un 5 % mejor en conversaciones de múltiples turnos, matemáticas y tareas de razonamiento en comparación con los modelos de 8 bits, lo que garantiza resultados más precisos y confiables.
La plataforma de inferencia Cerebras está disponible a través de chat y acceso API, y está diseñada para que los desarrolladores familiarizados con ella puedan integrarla fácilmente. IA abiertaFormato de finalización de chat de 's. La plataforma cuenta con la capacidad de ejecutar modelos Llama3.1 70B a 450 tokens por segundo, lo que la convierte en la única solución que logra una velocidad instantánea para modelos tan grandes. Para los desarrolladores, Cerebras ofrece 1 millón de tokens gratuitos por día en el lanzamiento, y se dice que los precios para implementaciones a gran escala son significativamente más bajos que los de las nubes GPU populares.
Cerebras se lanzará inicialmente con los modelos Llama3.1 8B y 70B, y tiene planes de agregar compatibilidad con modelos más grandes como Llama3 405B y Mistral Large 2 en el futuro cercano. La empresa destaca que las capacidades de inferencia rápida son cruciales para permitir flujos de trabajo de IA más complejos y mejorar la inteligencia LLM en tiempo real, particularmente en técnicas como el andamiaje, que requiere un uso sustancial de tokens.
Patrick Kennedy de ServirElHogar Vi el producto en acción en el reciente simposio Hot Chips 2024 y señalé: “Tuve la oportunidad de sentarme con Andrew Feldman (director ejecutivo de Cerebras) antes de la charla y me mostró las demostraciones en vivo. Es increíblemente rápido. La razón por la que esto es importante no es solo para que los humanos inicien la interacción. En cambio, en un mundo de agentes donde los agentes de IA de computadora hablan con varios otros agentes de IA de computadora. Imagine si cada agente tarda segundos en generar un resultado y hay múltiples pasos en esa cadena. Si piensa en las cadenas de agentes de IA automatizadas, entonces necesita una inferencia rápida para reducir el tiempo de toda la cadena”.
Cerebras posiciona su plataforma como un nuevo estándar en el desarrollo y la implementación de LLM abierto, ofreciendo un rendimiento récord, precios competitivos y un amplio acceso a API. Puede probarla visitando inferencia.cerebras.ai o escaneando el código QR en la diapositiva siguiente.