Cuando el lanzamiento de un modelo de IA genera inmediatamente memes y tratados que declaran que el resto de la industria está cocido, sabes que tienes algo que vale la pena analizar.
El Gemini 3 de Google fue lanzado el martes con gran fanfarria. La compañía calificó el modelo como una “nueva era de inteligencia” y lo integró en la Búsqueda de Google desde el primer día por primera vez. Ha superado a OpenAI y los productos de otros competidores en una variedad de puntos de referencia y está encabezando las listas de LMArena, una plataforma de evaluación de IA de colaboración colectiva que es esencialmente el ranking Billboard Hot 100 de modelos de IA. Dentro de las 24 horas posteriores a su lanzamiento, más de un millón de usuarios probaron Gemini 3 en Google AI Studio y la API de Gemini, según Google. “Desde el punto de vista de la adopción desde el primer día, [it’s] lo mejor que hemos visto en cualquiera de nuestros lanzamientos de modelos”, dijo Logan Kilpatrick de Google DeepMind, líder de producto para AI Studio de Google y la API Gemini. El borde.
Incluso el director ejecutivo de OpenAI, Sam Altman, y el director ejecutivo de xAI, Elon Musk, felicitaron públicamente al equipo de Gemini por un trabajo bien hecho. Y el CEO de Salesforce, Marc Benioff, escribió que después de usar ChatGPT todos los días durante tres años, pasar dos horas en Gemini 3 lo cambió todo: «Mierda… no voy a regresar. El salto es una locura: razonamiento, velocidad, imágenes, video… todo es más nítido y rápido. Se siente como si el mundo hubiera cambiado, otra vez».
«Esto es más que un cambio en la tabla de clasificación», afirmó Wei-Lin Chiang, cofundador y director de tecnología de LMArena. Chiang dijo El borde que Gemini 3 Pro tiene una «clara ventaja» en categorías ocupacionales que incluyen codificación, coincidencia y escritura creativa, y sus capacidades de codificación agente «en muchos casos ahora superan a los mejores modelos de codificación como Claude 4.5 y GPT-5.1». También obtuvo el primer puesto en comprensión visual y fue el primer modelo en superar una puntuación de ~1500 en la clasificación de texto de la plataforma.
El desempeño del nuevo modelo, dijo Chiang, «ilustra que la carrera armamentista de la IA está siendo moldeada por modelos que pueden razonar de manera más abstracta, generalizar de manera más consistente y ofrecer resultados confiables en un conjunto cada vez más diverso de evaluaciones del mundo real».
Alex Conway, ingeniero de software principal de DataRobot, dijo El borde que uno de los avances más notables de Gemini 3 fue en un punto de referencia de razonamiento específico llamado ARC-AGI-2. Gemini obtuvo casi el doble de puntuación que el GPT-5 Pro de OpenAI y al mismo tiempo funcionó a una décima parte del costo por tarea, dijo, lo que «realmente desafía la noción de que estos modelos se están estancando». Y en el punto de referencia SimpleQA, que incluye preguntas y respuestas simples sobre una amplia gama de temas y requiere mucho conocimiento especializado, Gemini 3 Pro obtuvo una puntuación más del doble que el GPT-5.1 de OpenAI, señaló Conway. «Utilícelo por casos, será excelente para muchos más temas especializados y para profundizar en campos científicos y de investigación de última generación», dijo.
Pero las tablas de clasificación no lo son todo. Es posible (y tentador en el mundo de la IA de alta presión) entrenar un modelo para puntos de referencia estrechos en lugar de éxito de propósito general. Entonces, para saber realmente qué tan bien está funcionando un sistema, debe confiar en pruebas del mundo real, experiencias anecdóticas y casos de uso complejos en la naturaleza.
El borde Hablé con profesionales de todas las disciplinas que utilizan la IA todos los días para trabajar. El consenso: Gemini 3 parece impresionante y hace un gran trabajo en una amplia gama de tareas, pero cuando se trata de casos extremos y aspectos específicos de ciertas industrias, muchos profesionales no reemplazarán sus modelos actuales con él en el corto plazo.
La mayoría de la gente El borde habló con el plan de continuar usando Claude de Anthropic para sus necesidades de codificación, a pesar de los avances de Gemini 3 en ese espacio. Algunos también dijeron que Gemini 3 no es óptimo en el frente de interacción del usuario. Tim Dettmers, profesor asistente en la Universidad Carnegie Mellon y científico investigador en Ai2, dijo que aunque es un «gran modelo», es un poco crudo cuando se trata de UX, lo que significa que «no sigue las instrucciones con precisión».
Tulsee Doshi, director senior de gestión de productos de Google DeepMind para Gemini y Gen Media, dijo El borde que la empresa dio prioridad a llevar Gemini 3 a una variedad de productos de Google de una «manera muy real». Cuando se le preguntó acerca de las preocupaciones sobre el seguimiento de instrucciones, dijo que ha sido útil ver «dónde la gente está abordando algunos de los puntos conflictivos».
También dijo que dado que el modelo Pro es el primer lanzamiento de la suite Gemini 3, los modelos posteriores ayudarán a «completar esa preocupación».
Joel Hron, CTO de Thomson Reuters, dijo que la compañía tiene sus propios puntos de referencia internos que ha desarrollado para clasificar tanto sus modelos internos como los públicos en las áreas que son más relevantes para su trabajo, como comparar dos documentos de hasta varios cientos de páginas, interpretar un documento extenso, comprender contratos legales y razonar en los espacios legal y fiscal. Dijo que hasta ahora, Gemini 3 ha tenido un buen desempeño en todos ellos y es «un salto significativo desde donde estaba Gemini 2.5». También supera a varios de los modelos de Anthropic y OpenAI en este momento en algunas de esas áreas.
Louis Blankemeier, cofundador y director ejecutivo de Cognita, una startup de inteligencia artificial en radiología, dijo que en términos de «números puros», Gemini 3 es «súper emocionante». Pero, dijo, «todavía necesitamos algo de tiempo para descubrir cuál es la utilidad de este modelo en el mundo real». Para dominios más generales, dijo Blankemeier, Gemini 3 es una estrella, pero cuando jugó con él en radiología, tuvo problemas para identificar correctamente fracturas costales sutiles en las radiografías de tórax, así como condiciones poco comunes o raras. Él considera que la radiología es similar a los autos autónomos en muchos sentidos, con muchos casos extremos, por lo que un modelo más nuevo y más potente puede no ser tan efectivo como uno más antiguo que ha sido perfeccionado y entrenado con datos personalizados a lo largo del tiempo. «El mundo real es mucho más difícil», afirmó.
De manera similar, Matt Hoffman, director de IA de Longeye, una empresa que proporciona herramientas de IA para investigaciones policiales, ve prometedor el generador de imágenes Nano Banana Pro con tecnología Gemini 3 Pro. Los generadores de imágenes permiten a Longeye crear conjuntos de datos sintéticos convincentes para realizar pruebas, lo que le permite mantener seguros los datos de investigación reales y confidenciales. Pero aunque los puntos de referencia son impresionantes, es posible que no se correspondan con los casos de uso reales de la empresa. «No estoy seguro de que Longeye pueda cambiar un modelo que estamos usando en producción por Gemini 3 y ver mejoras inmediatas», dijo.
Otras empresas también dicen que están entusiasmadas con Gemini, pero no necesariamente usándolo para reemplazar todo lo demás. Built, una startup de préstamos para la construcción, utiliza actualmente una combinación de modelos fundamentales de Google, Anthropic, OpenAI y otros para analizar las solicitudes de retiro de obras: un paquete de documentos que a menudo se envía a un prestamista de la construcción, como facturas y pruebas del trabajo realizado, solicitando que se paguen los fondos. Esto requiere un análisis multimodal de texto e imágenes, además de una gran ventana de contexto para que el agente principal delegue tareas a los demás, dijo el vicepresidente de ingeniería, Thomas Schlegel. El borde. Eso es parte de lo que Google promete con Gemini 3, por lo que la compañía está explorando actualmente cambiarlo por 2.5.
«En el pasado, hemos descubierto que Gemini es el mejor en tareas de uso múltiple, y 3 parece ser un gran paso adelante en esa misma línea», dijo Schlegel. «Es todo lo que amamos de Géminis con esteroides». Pero todavía no cree que reemplace a todos los demás modelos, incluido Claude para tareas de codificación y productos OpenAI para razonamiento empresarial.
Para Tanmai Gopal, cofundador y CEO de la plataforma de agentes de IA PromptQL, el revuelo que ha causado Gemini 3 es válido, pero “definitivamente no es el final de nada” para los competidores de Google. Los modelos de IA son cada vez mejores y más baratos, y dado que tienen ciclos de lanzamiento tan rápidos, «uno siempre está por delante del resto durante un período de tiempo». (Por ejemplo, el día después del lanzamiento de Gemini 3, OpenAI lanzó GPT-5.1-Codex-Max, una actualización de un modelo de una semana de antigüedad, aparentemente para desafiar a Gemini 3 en algunos puntos de referencia de codificación).
Gopal dijo que PromptQL todavía está trabajando en evaluaciones internas para decidir cómo cambiarán, si es que cambian, las opciones de modelo del equipo, pero «los resultados iniciales no necesariamente muestran algo drásticamente mejor» que su alineación actual. Dijo que su preferencia actual es Claude para generación de código, ChatGPT para búsqueda web y GPT-5 Pro para «lluvia de ideas profunda», pero puede incorporar Gemini 3 como modelo predeterminado, ya que es «probablemente el mejor de su clase para tareas de consumo en creatividad, texto y [and] imagen.»
Y como prácticamente todos los modelos, Gemini 3 ha tenido momentos de lo que llamaré «síndrome de la mano robótica»: cuando un sistema de inteligencia artificial hace algo complejo con gran éxito pero queda atónito ante la consulta más simple, similar a las manos robóticas de antaño que tenían problemas para agarrar una lata de refresco. El famoso investigador Andrej Karpathy, miembro fundador de OpenAI y ex director de IA en Tesla, escribió en X después de probar Gemini 3 que “ayer tuvo una primera impresión positiva en personalidad, escritura, codificación de vibraciones, humor, etc., un potencial de conducción diario muy sólido, claramente un LLM de nivel 1”, pero señaló que el modelo se negó a creerle cuando dijo que era 2025 y luego dijo que se había olvidado de activar la Búsqueda de Google. (Descubrió que en las primeras pruebas, es posible que le hubieran dado un modelo con un mensaje de sistema obsoleto).
En El bordeSegún nuestra propia experiencia al probar Gemini 3, descubrimos que «funciona razonablemente bien, con salvedades». Probablemente no permanecerá en la cima para siempre, pero es un inconfundible paso adelante para la empresa.
«Estás en una especie de juego de saltos de modelo a modelo, mes a mes, cuando aparece uno nuevo», dijo Hron. «Pero lo que me llamó la atención del lanzamiento de Google es que realiza mejoras sustanciales en muchas dimensiones de los modelos, por lo que no es que simplemente haya mejorado en codificación o simplemente mejoró en razonamiento… Realmente, en todos los ámbitos, mejoró un poco».
