Nueva optimización de inferencia de DeepSeek que puede aumentar la velocidad de respuesta por usuario hasta en un 85 por ciento: DSpark

La startup de inteligencia artificial con sede en China DeepSeek anunció DSpark, una nueva optimización de inferencia centrada en aumentar la velocidad de generación de respuesta en los modelos DeepSeek-V4. Según la información compartida por la empresa, DSpark se posiciona como un marco de «decodificación especulativa» o análisis predictivo que tiene como objetivo hacer que los modelos de lenguaje grandes respondan más rápido, especialmente en escenarios de uso intensivo. Según Tech in Asia, la tecnología puede aumentar la velocidad de respuesta por usuario hasta en un 85 por ciento.

En lugar de introducir una nueva arquitectura de modelo, DSpark trabaja con un módulo de inferencia agregado en DeepSeek-V4-Pro. En este sentido, podemos decir que DeepSeek realiza una mejora orientada a la ingeniería que permite respuestas más rápidas desde el mismo modelo, en lugar de cambiar las capacidades básicas del modelo. Se afirma que DSpark ha comenzado a usarse en tráfico en vivo en las versiones Flash y Pro de DeepSeek-V4.

La base del sistema es un «modelo borrador» ligero. Este modelo predice tokens candidatos para la respuesta que se generará; Luego, el modelo principal valida a estos candidatos colectivamente. Por lo tanto, la generación de respuestas tiene una estructura más paralela en lugar de proceder completamente token por token. La diferencia de DSpark es que desarrolla esta estructura con producción semiautoregresiva y mecanismo de verificación basado en confianza. El sistema reduce el desperdicio de recursos de GPU al calcular qué tokens candidatos vale la pena validar.

En las pruebas de DeepSeek, DSpark aumentó el rendimiento del lado del usuario entre un 60 y un 85 por ciento en el modelo Flash y entre un 57 y un 78 por ciento en el modelo Pro en comparación con el punto de referencia MTP-1 de la generación anterior. También se afirma que en las mismas pruebas, DSpark produce secuencias de tokens que se consideran más largas que los enfoques de resolución especulativa existentes, como Eagle3 y DFlash.

DeepSeek también ha introducido un conjunto de herramientas de código abierto llamado DeepSpec junto con DSpark. DeepSpec, lanzado en GitHub bajo licencia MIT; Se destaca como una base de código completo que cubre la preparación de datos, la capacitación del modelo preliminar y los procesos de evaluación. Actualmente, el proyecto admite los algoritmos DFlash y Eagle3, así como DSpark; Puede funcionar en las familias de modelos Qwen3 y Gemma.

Comparte esto: