Modelo de razonamiento eficiente de hardware de Microsoft: Phi-4-reasoning-vision-15B

Microsoft lanzó Phi-4-reasoning-vision-15B, un modelo de razonamiento eficiente en hardware. El modelo, que puede procesar archivos multimodales como gráficos científicos, se basa en dos algoritmos existentes llamados SigLIP-2 y Phi-4 Reasoning. Mientras que SigLIP-2 comprime imágenes en un formato numérico que las redes neuronales pueden entender, Phi-4 Reasoning, que Microsoft publicó como código abierto en abril pasado, aparece como un modelo de razonamiento. Los investigadores de Microsoft combinaron estos dos algoritmos utilizando el enfoque de fusión media.

El modelo de 15 mil millones de parámetros puede procesar tanto imágenes como texto mientras resuelve problemas complejos de matemáticas y ciencias. Asimismo, el modelo, que puede interpretar gráficos y documentos, puede navegar por interfaces gráficas de usuario y realizar tareas visuales diarias como subtitular fotografías y leer recibos. Además, al utilizar Phi-4-reasoning-vision-15B, los desarrolladores pueden crear agentes de IA que interactúan con aplicaciones a través de interfaces de usuario.

En modelos de fusión intermedios como phi-4-reasoning-vision-15B, solo algunas capas admiten el procesamiento multimodal. Gracias a esta regulación, los usuarios pueden comprometer la calidad de salida al reducir el uso de hardware. Según Microsoft, los usuarios pueden reducir aún más la huella de infraestructura del modelo desactivando la función de razonamiento mediante comandos.

Phi-4-reasoning-vision-15B entrenado con datos de código abierto. Los datos incluían imágenes y descripciones basadas en texto de los objetos representados en las imágenes. Antes de comenzar a entrenar el modelo, Microsoft perfeccionó los archivos mediante un proceso de varios pasos.

Microsoft comparó el algoritmo con varios modelos de razonamiento de tamaño similar utilizando puntos de referencia de código abierto. Phi-4-reasoning-vision-15B obtuvo una puntuación un 17 por ciento más alta que gemma-3-12b-it de Google en MathVista_Mini, un punto de referencia de preguntas matemáticas multimodales.

Phi-4-reasoning-vision-15B obtuvo una puntuación de 84,8 en AI2D, que se centra en diagramas científicos, 83,3 en ChartQA, 75,2 en MathVista, 88,2 en ScreenSpot v2 y 54,3 en MMMU, una amplia prueba de comprensión multimodal. Aunque el Phi-4-reasoning-vision-15B va por detrás de modelos como el Qwen3-VL-32B, mucho más grande; Puede competir o superar sistemas de tamaño similar como el Qwen3-VL-8B y el Kimi-VL-A3B. El modelo Phi-4-reasoning-vision-15B está disponible en Microsoft Foundry, Hugging Face y GitHub.

Comparte esto: