La nueva habilidad de Gemini 3 Flash que combina razonamiento visual y ejecución de código: Agentic Vision

Google para Géminis 3 Flash Visión agente anunció sus habilidades. La compañía señala que los modelos de alta gama como Gemini a menudo representan el mundo en una única vista estática. Estos modelos se ven obligados a hacer conjeturas si pasan por alto detalles sutiles como el número de serie de un microchip o una señal de tráfico distante. Agentic Vision en Gemini 3 Flash transforma la comprensión de imágenes de una acción estática a un proceso agente. Podemos definir Agentic Vision como una nueva habilidad desarrollada por el modelo Gemini 3 Flash para hacer que las tareas relacionadas con imágenes sean más precisas basando las respuestas en evidencia visual.

El modelo combina el razonamiento visual con la ejecución de código, una de las primeras herramientas soportadas por Agentic Vision, para crear planes para hacer zoom, examinar y procesar imágenes paso a paso. Según la empresa; Habilitar la ejecución de código con Gemini 3 Flash funciona de manera consistente en la mayoría de los puntos de referencia entre 5 y 10 por ciento proporciona un aumento de la calidad.

Visión Agentic, especialmente “Pensar, actuar, observar” utiliza el bucle. En el paso Pensar, el modelo analiza la consulta del usuario y la imagen inicial para crear un plan de varios pasos. En el paso Mover, el modelo genera y ejecuta código Python para procesar o analizar activamente las imágenes. En el paso Observar, la imagen transformada se agrega a la ventana contextual del modelo. Este último paso permite que el modelo examine nuevos datos en un mejor contexto antes de generar la respuesta final.

Según la información compartida por la empresa, Gemini 3 Flash puede ir más allá de simplemente definir una imagen que se le da, puede dibujar directamente en el lienzo ejecutando código y así basar su lógica. Sin embargo, Gemini 3 Flash hace zoom cuando detecta detalles finos en la imagen. También se afirma que Agentic Vision puede analizar tablas de alta densidad y ejecutar código Python para visualizar los hallazgos. En definitiva, estamos hablando de una capacidad visual que puede hacer zoom en imágenes, contar los dedos de la mano en una imagen y realizar cálculos aritméticos.

La capacidad Agentic Vision está comenzando a ofrecerse a la aplicación Gemini con el modelo Thinking. Los desarrolladores pueden acceder a esta nueva capacidad con la API Gemini en Google AI Studio y Vertex AI.

We use cookies in order to give you the best possible experience on our website. By continuing to use this site, you agree to our use of cookies.
Accept