Modelos de razonamiento de inteligencia artificial híbrido de Alibaba: Qwen3

Gigante de la tecnología basada en chino Alibaba, Ayer nueva familia de modelo de inteligencia artificial Qwen3 ‘ü se libera explicado. Según la compañía; Esta familia de modelos de inteligencia artificial es equivalente a los mejores modelos de Google y OpenAI, y en algunos casos superior.

Tamaño de los modelos De 600 millones de parámetros a 235 mil millones de parámetros se extiende a. Gracias a las variantes intensivas entre 0.6 B y 32 B, los usuarios pueden crear prototipos en computadoras portátiles y marcar sus solicitudes de comando a múltiples grupos de GPU sin reescribir. Según la declaración de Alibaba, los modelos QWEN3 pueden tomar tiempo y tener sentido para resolver problemas complejos. Del mismo modo, estos modelos aparecen como modelos híbridos que pueden responder rápidamente a demandas más simples.

El equipo de Qwen incluye las siguientes declaraciones en su publicación de blog:

Al integrar los modos de pensamiento y no pensar sin ningún problema, los usuarios ofrecen a los usuarios la flexibilidad de controlar el presupuesto de pensamiento. Este diseño permite a los usuarios estructurar la tarea más fácilmente.

Algunos de los modelos también adoptan una mezcla de expertos para responder consultas. MOE dedica tareas a tareas más bajas y transfiere las sub -tareas a modelos más pequeños y especializados. Por lo tanto, se sigue una forma más eficiente de calcular.

Compañía, QWEN3-235B-A22B Y QWEN3-30B-A3B Ofrece dos modelos MOE, incluidos abiertamente. QWEN3-235B-A22B, Total 235 mil millones de parámetros Y A 22 mil millones de parámetros activos Un modelo grande con. QWEN3-30B-A3B Total 30 mil millones de parámetros Y Con 3 mil millones de parámetros activos Un modelo MOE más pequeño. También bajo la licencia Apache 2.0 QWEN3-32B, QWEN3-14B, QWEN3-8B, QWEN3-4B, QWEN3-1.7B Y Qwen3-0.6b Seis modelos densos, incluidos, también se presentan abiertamente a los usuarios.

Según la información compartida; Apoyo a 119 idiomas Modelos qwen3, sobre Un conjunto de datos de 36 billones de tokens Entrenado. En este punto, 1 millón de tokens corresponde a aproximadamente 750 mil palabras. QWEN3 fue entrenado en una combinación de datos producidos por libros de texto, pares de preguntas y respuestas, partículas de código e inteligencia artificial. Por lo tanto, el modelo anterior de Qwen3 ha aumentado en gran medida sus capacidades en comparación con QWEN2. Sin embargo, ninguno de los modelos QWEN3 ha trascendido seriamente los modelos más nuevos de O3 y O4-Mini de OpenAI. Sin embargo, es posible decir que los modelos funcionan fuertemente.

En CodeForces, el mayor modelo QWEN3 QWEN-3-235B-A22B, O3-Mini de Openai Y Gemini 2.5 Pro de Google Se las arregló para dejar atrás sus modelos. Qwen-3-235b-A22B, tanto en la última versión de AIME como en la prueba BFCL O3-Mini detrás Se va. AIME es una prueba de evaluación matemática difícil, y BFCL es una prueba que evalúa la capacidad de un modelo para dar sentido a los problemas.

QWEN-3-235B-A22B no es un modelo público por ahora. QWEN3-32B está en varias pruebas Deja atrás el O1 de OpenAI. Incluyendo LivecodeBench, que ofrece esta evaluación sobre la codificación. Según Alibaba; Qwen3 es perfectamente perfecto en el seguimiento de las instrucciones y la copia de formatos de datos específicos, mientras se mantiene hacia adelante con las capacidades de llamadas de vehículos.

La mayoría de los modelos se pueden descargar con una licencia abierta de la plataforma de desarrollo de IA Huging Face y Github. Además de los modelos descargables, se puede obtener de proveedores de nubes como Qwen3, Fireworks AI e Hyperbolic. Se puede acceder a ModelsCope y Kaggle a través de modelos. Además, aquellos que deseen pueden interactuar directamente a través de la interfaz web de Chwen Chat y las aplicaciones móviles.

Comparte esto: