Modelo de razonamiento visual de código abierto rival OpenAI o1 de Qwen: QVQ-72B-Preview

Gigante del comercio electrónico con sede en China AlibabaEl nuevo modelo de inteligencia artificial QwQ-32B-Preview, que rivaliza con el modelo o1 de OpenAI compartimos contigo. El equipo de investigación de inteligencia artificial de Alibaba Qwenahora el nuevo modelo de código abierto Presentación preliminar del QVQ-72B. QVQ-72B-Preview puede analizar imágenes y sacar conclusiones de ellas. El modelo, que aún se encuentra en fase experimental, mostró en las primeras pruebas un buen rendimiento, especialmente en tareas de razonamiento visual.

El modelo, al igual que otros modelos de razonamiento, resuelve problemas pensando paso a paso. Cuando los usuarios ingresan una imagen e instrucciones, el sistema se toma el tiempo para analizar la información y pensar en ella según sea necesario. Luego proporciona respuestas con puntuaciones de confianza para cada predicción. Podemos decir que el modelo se comporta de manera similar a modelos de razonamiento como el o1 de OpenAI o el Flash Thinking de Google.

Según la información compartida; QVQ-72B-Preview se basa en el modelo de lenguaje visual existente de Qwen, Qwen2-VL-72B, con capacidades adicionales para pensar y razonar. Según Qwen; El modelo es el primer modelo de código abierto de este tipo. De hecho, QVQ-72B-Preview también llama la atención por su similitud con el modelo de razonamiento QwQ publicado recientemente. Sin embargo, el equipo no compartió ninguna información sobre la relación de los dos modelos.

Para probar el modelo, Qwen utilizó cuatro métricas diferentes. Estos son MMMU, que evalúa la comprensión visual a nivel universitario, MathVista, que verifica el nivel de razonamiento a través de gráficos matemáticos, MathVision, que se enfoca en problemas de competencia de matemáticas, y OlympiadBench, que evalúa problemas de matemáticas y física de nivel olímpico tanto en chino como en inglés. .

En estas pruebas, QVQ logró niveles de precisión similares a modelos como el o1 de OpenAI y el Claude 3.5 Sonnet de Anthropic. Por tanto, el modelo funcionó mejor que el modelo anterior Qwen2-VL-72B-Instruct. QVQ-72B-Vista previa en el punto de referencia MMMU 70,3 puntos entiendo. Aunque no pudo superar al o1 con esta puntuación, logró superar a los modelos GPT-4o y Claude 3.5 Sonnet. asimismo MatemáticasVista obtenido según 71,4 puntos Superó a los modelos o1, GPT-4o y Claude 3.5 Sonnet.

Sin embargo, debemos señalar que el QVQ-72B-Preview tiene algunas limitaciones. Según el equipo de Qwen; Puede cambiar de idioma inesperadamente o quedarse atrapado en bucles de juicio. Debemos señalar que el modelo o1 de OpenAI aún no ha podido resolver el problema de quedarse atrapado en bucles circulares de razonamiento. Además, durante tareas complejas de razonamiento visual, el QVQ-72B-Preview a veces pierde la noción de lo que está mirando, lo que puede provocar alucinaciones. Según el equipo; Se necesitan medidas más estrictas para que el modelo esté listo para un uso generalizado. Aquellos que quieran probar QVQ-72B-Preview por ahora abrazando la cara Puedes acceder al modelo a través de .

Si bien el equipo de Qwen ve el QVQ-72B-Preview como un paso hacia la inteligencia artificial general (AGI), anuncian que estarán disponibles para los usuarios con un modelo omni similar al GPT-4o en el futuro.

Comparte esto: