Apple anunció que está colaborando con NVIDIA para hacer que los modelos de lenguajes grandes (LLM) se ejecuten más rápido. Esta asociación tiene como objetivo específico acelerar los procesos de producción de textos. Redactor recurrente (ReDrafter) El método de NVIDIA llamado Infraestructura TensorRT-LLM Llama la atención por su integración.
Redactor, «búsqueda de haz» Y «atención dinámica del árbolAl combinar » métodos, ofrece resultados más rápidos en comparación con las técnicas anteriores. Gracias a este enfoque, se producen 3,5 veces más tokens en cada paso en modelos de código abierto, lo que proporciona un aumento espectacular en la velocidad de producción.
En el proceso de integración de este método en el sistema TensorRT-LLM de NVIDIA, Apple agregó nuevos operadores u optimizó los existentes, lo que hizo posible que el sistema admita modelos y métodos más complejos. En las pruebas, modelos con miles de millones de parámetros ejecutándose en GPU NVIDIA, Se observó que la tasa de producción de tokens aumentó 2,7 veces.
Tasa de token por segundo usando NVIDIA TensorRT-LLM con ReDrafter versus regresión automática
Esta mejora no sólo reduce la latencia en la experiencia del usuario, sino que también reduce el consumo de energía y el uso de GPU. Esta asociación entre Apple y NVIDIA tiene como objetivo proporcionar una infraestructura más rápida, potente y eficiente a la comunidad de aprendizaje automático.
Apple y NVIDIA creen que esta integración brindará oportunidades más amplias para los desarrolladores de toda la industria y planean abrir la puerta a más innovaciones en el futuro.
