Nueva serie de modelos de Alibaba que supera al gpt-oss-120B de OpenAI: Qwen 3.5 Small Model Series

El equipo Qwen de Alibaba presentó la serie de modelos pequeños Qwen3.5. En la gama de modelos Qwen3.5-0.8B, Qwen3.5-2B, Qwen3.5-4B y Qwen3.5-9B esta ubicado. Pequeño y optimizado para un rendimiento rápido Qwen3.5-0.8B y Qwen3.5-0.2B Los modelos se pueden utilizar con fines de creación de prototipos e implementación en dispositivos donde la duración de la batería es muy importante.

Una potente base multimodal para agentes suaves Qwen3.5-4BAdmite de forma nativa 262 mil 144 ventanas de contexto de token. Un modelo de razonamiento compacto Qwen3.5-9Ben puntos de referencia clave de terceros 13,5 veces más grande El código abierto de OpenAI gpt-oss-120B deja atrás su modelo. Esos criterios incluyen conocimiento multilingüe y razonamiento a nivel de posgrado.

La base técnica de la serie Qwen3.5 Small se basa en la Arquitectura Híbrida Eficiente. A diferencia de las arquitecturas de transformadores estándar, Alibaba combina redes Delta cerradas (un tipo de atención lineal) con una escasa mezcla de expertos (MoE) en esta arquitectura. De esta forma, la empresa elimina el «muro de la memoria» que suele limitar a los modelos pequeños. Los modelos que utilizan redes Delta cerradas logran un mayor rendimiento y una latencia significativamente menor.

También se entrenó utilizando la fusión temprana en tokens multimodales Qwen3.5, que son inherentemente multimodales. De esta forma, los modelos 4B y 9B, anteriormente El nivel de comprensión visual requerido por los modelos es diez veces mayor. puede exhibir. En particular, se pueden realizar fácilmente acciones como leer elementos de la interfaz o contar objetos en un vídeo.

En la medida de razonamiento visual MMMU-Pro, Qwen3.5-9B 70.1 puntos, dejando atrás al Gemini 2.5 Flash-Lite con 59,7 puntos y al Qwen3-VL-30B-A3B con 63,0 puntos. En el benchmark GPQA Diamond, el modelo 9B obtuvo 81,7 puntos, dejando atrás al modelo gpt-oss-120b, que obtuvo 80,1 puntos y tiene más de diez veces el número de parámetros.

En la prueba de referencia Video-MME (subtitulada), Qwen3.5-9B obtuvo 84,5 puntos, mientras que 4B obtuvo 83,5 puntos. Así, los modelos superaron significativamente al Gemini 2.5 Flash-Lite, que obtuvo 74,6 puntos. En la evaluación del HMMT de febrero de 2025 (torneo de matemáticas Harvard-MIT), el modelo 9B recibió 83,2 puntos, mientras que la variante 4B recibió 74,0 puntos. La variante 9B tomó la delantera en reconocimiento de documentos con una puntuación de 87,7 en OmniDocBench v1.5. También mantuvo su máxima presencia multilingüe en MMMLU con una puntuación de 81,2, superando a gpt-oss-120b, que obtuvo una puntuación de 78,2 en la misma evaluación.

Los pesos de los modelos están actualmente disponibles a nivel mundial en Hugging Face y ModelScope bajo licencias Apache 2.0. Se pueden preferir los modelos para uso corporativo y comercial, incluida la personalización cuando sea necesario.

Comparte esto: