Esta semana, el equipo Qwen, formado por investigadores de inteligencia artificial del gigante del comercio electrónico Alibaba, con sede en China, presentó Qwen3-Coder-Next, que se centra en la codificación por vibración. Qwen3-Coder-Next, un modelo personalizado con 80 mil millones de parámetros, utiliza una arquitectura de Mezcla de Expertos (MoE) ultraescasa que permite solo 3 mil millones de parámetros por paso directo. Gracias a este diseño, el modelo mantiene los bajos costos de implementación y la alta eficiencia de un modelo doméstico liviano. Asimismo, ofrece capacidades de razonamiento que rivalizan con los sistemas privados masivos.
Arquitectura y proceso de formación de Qwen3-Coder-Next
Podemos decir que Qwen3-Coder-Next aprovecha una arquitectura híbrida especialmente diseñada para superar los problemas de escalamiento de segundo orden que afectan a los Transformers tradicionales. Por lo tanto, el modelo puede mantener su estado dentro de su ventana de un cuarto de millón de tokens sin las excesivas penalizaciones por retrasos típicas del razonamiento a largo plazo. Cuando este enfoque se combina con MoE ultraescaso, Qwen3-Coder-Next ofrece un rendimiento teórico 10 veces mayor para tareas a nivel de almacén en comparación con modelos densos con capacidad total similar.
Podemos decir que la arquitectura en cuestión permite a un agente leer toda la biblioteca de Python o el complejo marco de JavaScript y responder con la velocidad del modelo 3D. Además, cabe destacar que el modelo tiene una comprensión estructural del sistema 80B. El equipo también afirma que utiliza el método Best-Fit Packing (BFP). Podemos definir Best-Fit Packing (BFP) como una estrategia que mantiene la eficiencia sin los errores de truncamiento que se encuentran en el ensamblaje de documentos tradicional. Al utilizar Best-Fit Packing, se previenen las alucinaciones contextuales que se producen durante el entrenamiento. También hemos visto hasta ahora que los modelos de codificación se entrenan en pares código-texto estáticos. Qwen3-Coder-Next, por otro lado, se desarrolló mediante un proceso masivo de «formación de agentes».
Aspectos destacados del modelo.
Los aspectos más destacados del modelo incluyen soporte para 370 lenguajes de programación, llamadas de vehículos estilo XML y enfoque a nivel de almacén. En comparación con el soporte de 92 idiomas de versiones anteriores, Qwen3-Coder-Next admite 370 lenguajes de programación, ampliando su rango de acción. Un nuevo formato qwen3_coder diseñado para argumentos con muchas cadenas en la invocación de la herramienta de estilo XML permite que el modelo produzca fragmentos de código largos sin la sobrecarga de comillas anidadas y escapes típicos de JSON. En la función Warehouse Level Focus, la capacitación de nivel medio se amplía a aproximadamente 600 mil millones de tokens de datos a nivel de almacén. Podemos hablar de Qwen3-Coder-Next como un modelo que puede procesar 262 mil tokens de un repositorio en segundos y verificar su propio trabajo en un contenedor Docker. En este sentido, los desarrolladores pueden preferir Qwen3-Coder-Next a un modelo más grande que sea demasiado lento o costoso de iterar.
Rendimiento del modelo
En evaluaciones comparativas que utilizan el marco SWE-Agent, Qwen3-Coder-Next demuestra una eficiencia notable según la cantidad de parámetros activos. En SWE-Bench Verified, el modelo logra una puntuación del 70,6 por ciento, superando a los modelos más grandes. Esto incluye DeepSeek-V3.2, que recibió una puntuación del 70,2 por ciento. Qwen3-Coder-Next, por otro lado, queda sólo ligeramente por detrás de GLM-4.7, que obtuvo una puntuación del 74,2 por ciento en la misma medida.
El equipo de Qwen cree que ampliar la capacitación de los agentes, en lugar del tamaño del modelo, es un factor clave para mejorar las capacidades de los agentes de codificación del mundo real. Con Qwen3-Coder-Next, el equipo desafía los modelos de codificación de código cerrado que dominan la industria.
