Modelo de inteligencia artificial centrado en procesar textos largos de Deepseek: Deepseek-V3.2-Exp.

Compartimos la versión V3 de la versión V3 de la licencia MIT de Deepseek con usted. Definido como el primer paso para la edad del agente de la compañía en agosto Deepseek v3.1La compañía con base en chino, que lo presenta, ofrece resultados más estables y confiables en pruebas de referencia en comparación con la versión anterior, hace solo unos días Deepseek-v3.1-terminal se le ocurrió. La compañía ahora está con el modelo experimental llamado Deepseek-V3.2-Exp. Según Deepseek; Deepseek-V3.2-Exp mantiene su calidad como el modelo V3.1-terminal anterior, al tiempo que mantiene textos largos de manera más eficiente.

Según la información compartida, esta versión experimental ofrece tecnología de atención escasa (DSA) basada en el modelo V3.1-terminal. Se espera que DSA, que se puede definir como una tecnología de atención escasa, mejore significativamente la capacitación y las inferencias en contextos largos.

El escaso mecanismo de atención elige solo las partes relevantes de los textos largos para el procesamiento. Por lo tanto, este método reduce significativamente el poder de cálculo requerido. Vale la pena mencionar los mecanismos tradicionales aquí. Los mecanismos de atención tradicionales evalúan cada palabra asociada con todas las demás palabras. Por lo tanto, para textos largos, se requiere un aumento de la potencia de cálculo. Los desarrolladores pueden lograr una capacitación más rápida e inferencias más baratas para documentos integrales gracias al mecanismo de atención escasa de Deepseek.

Deepseek compara V3.2-Exp de manera integral con el modelo V3.1-terminal anterior. En criterios como MMLU-Pro, es notable que ambos modelos obtengan el mismo puntaje con 85.0 puntos. En los criterios de programación como CodeForces, V3.2-Exp funcionó un poco mejor que los 2046 puntos de V3.1-terminal, con 2121 puntos, dice que la compañía utiliza las mismas configuraciones de entrenamiento para hacer una comparación justa.

El modelo V3.2-EXPP funciona bajo una licencia MIT que permite el uso comercial y académico. Los desarrolladores pueden utilizar el modelo a través de varias plataformas. Hugggingface proporciona acceso al modelo, mientras que VLLM ofrece soporte. El modelo funciona para varias configuraciones de hardware desde el NVIDIA H200 hasta los chips AMD. Deepseek también introdujo el código de inferencia para los desarrolladores que desean ejecutar el modelo localmente. Sin embargo, el proceso de convertir el peso del modelo Huggingface en uso local requiere algunos arreglos para la configuración de GPU y la configuración de expertos.

Comparte esto: