Nueva familia de modelos abiertos de Google que llama la atención con la licencia Apache 2.0: Gemma 4

Google presentó Gemma 4, disponible en cuatro tamaños diferentes optimizados para uso local. Los desarrolladores podrán empezar a trabajar con Gemma 4. De hecho, el hecho de que Gemma 4 venga con una nueva licencia respecto a los modelos anteriores puede hacerlo más atractivo para los desarrolladores.

La licencia propietaria utilizada en versiones anteriores de Gemma fue criticada por ser demasiado restrictiva. Por eso Google está eliminando la licencia exclusiva de Gemma. La empresa es ampliamente utilizada por empresas y desarrolladores como Qwen, Mistral y Arcee. licencia apache 2.0 está pasando. Mientras que algunos laboratorios de inteligencia artificial con sede en China, incluido Alibaba con su Qwen3.5 Omni y Qwen 3.6 Plus, han comenzado a alejarse de las versiones completamente abiertas para sus últimos modelos, Google se está moviendo en la dirección opuesta.

Google diseñó Gemma 4 para que se pueda utilizar en dispositivos nativos. Las dos variantes de Gemma más grandes, 26B Mixture of Experts y 31B Dense, están diseñadas para ejecutarse sin cuantificar en formato bfloat16 en una única GPU Nvidia H100 de 80 GB. Cuando se cuantifican para funcionar con menor precisión, estos modelos más grandes pueden recibir soporte de GPU de consumo.

Según Google, la empresa se centró en reducir la latencia para aprovechar realmente la potencia de procesamiento nativa de Gemma. El modelo 26B Mixture of Experts activa solo 3.800 millones de sus 26.000 millones de parámetros en modo de inferencia. Por lo tanto, proporciona una cantidad mucho mayor de tokens por segundo que modelos de tamaños similares. Por otro lado, 31B Dense se centra en la calidad más que en la velocidad.

Avances de la inteligencia artificial en el enfoque móvil de Google

Los otros dos modelos de Gemma 4 para dispositivos móviles, Effective 2B (E2B) y Effective 4B (E4B), están diseñados para proporcionar un bajo uso de memoria durante la inferencia. Observemos que los modelos en cuestión funcionan efectivamente con 2 mil millones o 4 mil millones de parámetros.

Según la información compartida por Google; El equipo de Pixel trabajó con Qualcomm y MediaTek para optimizar estos modelos para dispositivos como teléfonos inteligentes, Raspberry Pi y Jetson Nano. Estos modelos no sólo consumen menos memoria y batería que el Gemma 3, sino que también destacan por su función de “latencia casi nula”.

El lanzamiento de E2B y E4B revela hacia dónde se dirigen los esfuerzos de inteligencia artificial de Google centrados en los teléfonos inteligentes. Pixels y algunos otros teléfonos Android ejecutan modelos nativos de IA llamados Gemini Nano, que pueden realizar tareas como detección de fraude, resumen de notas y resumen de llamadas sin enviar datos a la nube.

En un comunicado, Google confirmó que el Gemini Nano siempre se derivó de los modelos Gemma y que la próxima generación Nano 4 también tendrá variantes 2B y 4B basadas en los Gemma 4 E2B y E4B. La empresa ya está invitando a los desarrolladores a desarrollar flujos de trabajo agentes con estos modelos. Estos sistemas también funcionarán de forma compatible con Gemini Nano 4 en el futuro. Se espera que los detalles sobre el tema se compartan en Google I/O.

Los talentos destacados de Gemma 4

Gemma 4 ofrece capacidades mejoradas de razonamiento, matemáticas y seguimiento de instrucciones. Gemma 4 está listo para la tendencia del flujo de trabajo agente de las empresas de inteligencia artificial con llamadas de funciones nativas, salida JSON estructurada y soporte de instrucciones nativas para herramientas y API comunes.

Agreguemos que Gemma 4 también está optimizado para la generación de código. Según Google, Gemma 4 también puede generar código de alta calidad en un entorno fuera de línea, siempre que tenga el hardware para ejecutar variantes más grandes. Según compartió la empresa; Gemma 4 también funciona mejor cuando se trata de procesar información visual. También debemos señalar que los eficientes modelos E2B y E4B tienen soporte nativo para reconocimiento de voz.

En generaciones anteriores de modelos abiertos, la multimodalidad a menudo se trataba como un complemento. En la generación anterior, los codificadores visuales se agregaban a las redes troncales de texto, mientras que el audio requería el uso de una canalización ASR externa como Whisper. Asimismo, la llamada a la función se basó en ingeniería de línea de comando. Las capacidades mencionadas en Gemma 4 aparecen con integración a nivel arquitectónico. Además, el modelo ofrece todas estas capacidades en más de 140 idiomas. Además, cabe señalar que la ventana de contexto de los modelos extremos es de 128 mil tokens, mientras que los modelos 26B y 31B son de 256 mil tokens.

La actuación de Gemma 4

La compañía afirma que todos los nuevos modelos Gemma 4 superarán al Gemma 3. Según el comunicado de Google; Gemma 31B ocupará el tercer lugar en la lista Arena de los mejores modelos de IA abierta, después de GLM-5 y Kimi 2.5. Sin embargo, debemos señalar que incluso la variante más grande del Gemma 4 es sólo una fracción del tamaño de estos modelos. Entonces, en teoría, los modelos Gemma 4 podrían ser mucho más baratos de ejecutar que el GLM-5 y el Kimi 2.5.

Observando los resultados de la comparación, el modelo 31B, prueba de razonamiento matemático. AIME 89,2 por ciento en 2026, Puntuación del 80,0 por ciento en LiveCodeBench v6 está tomando. Fuerzas de código en ELO a 2,150 modelo de alcance, en el campo visual 76,9 por ciento en MMMU Pro mientras alcanza METRO.85,6 por ciento en ATH-Visión Obtuve puntos.

El modelo MoE de Gemma 4 es AIME 88,3 por ciento en 2026, 77,1 por ciento en LiveCodeBench y un punto de referencia de razonamiento científico a nivel de posgrado. 82,3 por ciento en GPQA Diamante logrado los resultados.

Nuevos modelos Gemma que incluyen variantes MoE 31B y 26B a través de AI Studio; Puede acceder a las variantes E4B y E2B a través de AI Edge Gallery. Además, se pueden descargar los pesos completos del modelo desde Hugging Face, Kaggle y Ollama. Aunque los modelos están optimizados para la representación local, también puedes ejecutarlos en Google Cloud.

We use cookies in order to give you the best possible experience on our website. By continuing to use this site, you agree to our use of cookies.
Accept