Nueva versión V3 de Deepseek's MIT License: Deepseek-V3-0324

Intento de inteligencia artificial basada en chino Deepseek, Publicó un nuevo modelo de gran idioma en silencio. Atrae la atención con sus habilidades y forma de implementación. Deepseek-v3-0324 Fue presentado a los usuarios en Huging Face. El modelo 641 Gigabytel viene con licencia MIT para uso comercial. Deepseek-V3-0324 está directamente en el hardware de la clase de consumo, especialmente el M3 Chip Mac Studio de Apple M3.

El modelo de parámetros de 685 mil millones se publicó sin ninguna revisión técnica, publicación de blog o movimiento de marketing. Además, el modelo tiene un archivo ReadMe vacío. Deepseek-V3-0324 se destaca con diferentes pesos de modelo.

Investigador de inteligencia artificial Xeophon, El nuevo Deepseek V3 dijo que antrópico reduciría el soneto de Claude 3.5 al trono. A diferencia de Sonnet, que requiere suscripción, el peso de Deepseek-V3-0324 se ofrece de forma gratuita para que todos los descarguen y usen.

Según la información compartida; Deepseek-V3-0324 utiliza una mezcla de expertos (MOE) que rediseñan fundamentalmente cómo funcionan los modelos de idiomas grandes. En este punto, los modelos tradicionales activan todo el número de parámetros para cada tarea. El enfoque de Deepseek activa solo unos 37 mil millones del parámetro de 685 mil millones durante ciertas tareas. Deepseek reduce en gran medida las solicitudes de cálculo al activar solo los parámetros «expertos» más relevantes para cada tarea. De esta manera, el modelo logra un rendimiento comparable con modelos totalmente habilitados mucho más grandes.

Mientras tanto, agreguemos que el modelo contiene dos tecnología innovadora, incluida la atención latente de múltiples cabezas (MLA) y la predicción de múltiples llamadas (MTP). MLA mejora la capacidad del modelo para proteger el contexto a lo largo de los largos pasajes de texto. MTP produce más de un token por paso en lugar de producir un token a la vez. Gracias a estas innovaciones, el modelo aumenta su velocidad de salida en aproximadamente un 80 por ciento. Grupo de investigación de aprendizaje de maquinaria de Apple TWNI HANUN, Ejecuta la nueva versión Deepseek-V3 en un estudio MAC. El modelo logró producir salida de aproximadamente 20 tokens por segundo. Además, los usuarios que prueban el modelo, el estilo de comunicación del modelo es un cambio serio, dice. Los modelos anteriores de Deepseek se destacan con sus tonos habladores y humanos, mientras que «V3-0324» tiene una personalidad más formal y orientada a la técnica.

El momento y las características de Deepseek-V3-0324 muestran que el Deepseek-R2, un modelo esperado orientado al razonamiento en los próximos dos meses, formará la base de Deepseek-R2. Deepseek-R2 puede competir directamente en el modelo GPT-5, que Operai planea lanzar en los próximos meses.

Comparte esto: