En agosto, Alibaba, presentando Qwen-Image, anunció su nuevo modelo QWEN3-OLNI. La compañía posiciona el modelo, el texto, la imagen, el audio y las entradas de video como la primera «inteligencia artificial del modelo final local» que puede procesar de una sola vez. El modelo QWEN3-OLNI puede obtener entrada en múltiples formatos, pero solo sale en forma de texto y sonido.
A diferencia de otros modelos que agregan características de voz o visión a los sistemas de prioridad de texto, QWEN3-NORRI integra todas las modalidades desde el principio. De esta manera, el modelo, mientras continúa respondiendo en tiempo real, puede tomar la entrada y dar salida.
El modelo admite 119 idiomas para texto, 19 idiomas para la entrada del habla y 10 idiomas para la salida del habla. Además, vale la pena señalar que el modelo ofrece una cuota gratuita de un millón de tokens en todas las modalidades que son válidas durante tres meses después de ser habilitados.
Alibaba Cloud lanzó tres versiones diferentes QWEN3-OLNI-30B-A3B, cada una de las cuales tiene diferentes propósitos.
El modelo de instrucción combina componentes de pensador y hablador para procesar entradas de sonido, video y texto y producir salidas de texto y voz. En el QWEN3-OLNI, que utiliza la arquitectura «pensador-talker», ‘Thinker’ gestiona el razonamiento y la comprensión de múltiples modificaciones, mientras que «Talker» produce un discurso natural. Ambos se basan en los diseños de expertos para alta simultaneidad e inferencia rápida (MOE).
El modelo de pensamiento se centra en las tareas de razonamiento y una larga cadena de pensamiento. Esta versión, que acepta las mismas entradas de modo múltiple, limita la salida al texto. Es más conveniente usar el modelo de pensamiento de Qwen3-Olni para aplicaciones donde se requieren respuestas escritas detalladas. El modelo Cuttioner es una variante fina, que está especialmente desarrollada para subtítulos de sonido, produciendo descripciones de texto correctas y bajas de entradas de sonido.
Junto con estas tres versiones, los desarrolladores pueden elegir entre una interacción multimodal grande, un razonamiento profundo o una comprensión de voz especial dependiendo de sus necesidades. QWEN3-OLNI está actualmente disponible como una variante de «flash» más rápida a través de Huging Face, Github y la API de Alibaba.
Según la información compartida; QWEN3-OLNI dejó a sus competidores atrás el 22 de la prueba de referencia de 36. Tareas de modelo, texto y razonamiento, procesamiento de voz y sonido, reconocimiento de imagen y visión y la comprensión de video del campo llama la atención con su rendimiento superior. Por ejemplo, en el campo de texto y razonamiento, AIME25 se encuentra en el GPT-4O (26.7) con 65.0 puntos y se encuentra en Gemini 2.5 Flash (57.9) con 76.0 puntos en Zebralogic. Mirando los resultados de Writingbench, QWEN3-OLNI tiene 82.6 puntos y dejó atrás el GPT-4O (75.5). Para otras comparaciones, puede revisar la siguiente tabla.
Podemos decir que el QWEN3-OLNI y OpenAi de Alibaba se dedican a competir con GPT-4O y Gemini 2.5 Pro de Google. El modelo se puede descargar bajo la licencia Apache 2.0 dentro del alcance del uso comercial y se puede cambiar y distribuir bajo esta licencia. Las áreas de uso de QWEN3-OLNI incluyen transcripción/traducción multilingüe, subtítulo de audio, OCR (reconocimiento de caracteres ópticos), etiquetado musical y comprensión de video. El modelo puede ser ajustado bien por los desarrolladores que utilizan solicitudes del sistema, desde el estilo del habla hasta la personalidad.
