Google, que lanzó en abril la extraordinaria familia de modelos abiertos Gemma 4 con licencia Apache 2.0, ahora Gema 4 12B ante nosotros. Los primeros modelos incluían dos opciones optimizadas para dispositivos móviles, el E2B y el E4B, y dos modelos diseñados para trabajos más serios, el 26B Mixture of Experts y el 31B Dense. Google afirma que el Gemma 4 12B llena el vacío entre el modelo E4B amigable con los bordes y el modelo 26B Mixture of Experts más avanzado.
Significativamente más capaz que las versiones móviles, el Gemma 4 12B no necesita un acelerador de IA de 20.000 dólares para funcionar de forma nativa. Según Google, el modelo fue diseñado para funcionar en muchas computadoras portátiles de consumo sin sacrificar la calidad. El Gemma 4 12B, que puede ejecutarse en una computadora con 16 GB de RAM del sistema o VRAM, requiere aproximadamente la mitad de la huella de memoria total del Gemma 4 26B MoE. Según la información compartida por Google; El nuevo modelo es capaz de realizar razonamientos complejos de varios pasos y flujos de trabajo de agencia que anteriormente requerían el uso de variantes de Gemma más grandes.
Según la declaración de Google, Gemma 4 12B es el modelo más nuevo de la compañía para ejecutar inteligencia multimodal de agencia en dispositivos locales. El modelo también se destaca como la primera opción de tamaño mediano de la familia Gemma en ofrecer soporte de entrada de audio local.
Una de las innovaciones destacadas del modelo es la predicción multitoken, es decir, la compatibilidad con MTP. A pesar del menor número de parámetros, el Gemma 4 12B viene con trazadores de predicción multitoken (MTP) de nuevo diseño. Esta estructura tiene como objetivo reducir la latencia al permitir que el modelo prediga múltiples tokens posibles en lugar del siguiente token. Si bien Google ha lanzado versiones MTP opcionales para otros modelos Gemma 4, el Gemma 4 12B ofrece esta función lista por primera vez.
Te recordamos también que la familia Gemma 4 tiene una estructura multimodal. En Gemma 4 12B, se utiliza un nuevo enfoque para la multimodalidad. La compañía afirma que ha agregado al modelo un módulo de integración optimizado para la visión. Con multiplicación de matriz única e incrustación espacial, esta estructura permite transferir datos visuales al LLM con la conciencia espacial adecuada. De este modo, se elimina la necesidad de un codificador intermedio adicional.
En cuanto al audio, se prefiere un método diferente. Según Google, en el modelo no se utiliza un proceso de codificación de audio tradicional. En cambio, los desarrolladores desarrollaron una forma de proyectar la señal de audio sin procesar en el mismo espacio que los vectores utilizados para los tokens de texto.
La principal diferencia del Gemma 4 12B es que, como modelo de gama media, puede ejecutarse en computadoras portátiles de consumo y viene con una arquitectura multimodal unificada que puede transferir entradas de audio y video directamente a la red troncal LLM sin la necesidad de codificadores separados.
Según los datos compartidos por Google; Los modelos Gemma 4 superaron las 150 millones de descargas con interés de la comunidad de desarrolladores. Desarrolladores que quieran probar el nuevo modelo. LM Studio, Ollama, Google AI Edge Gallery, Google AI Edge Eloquent y LiteRT-LM CLI Puede acceder a Gemma 4 12B a través de . Los pesos del modelo previamente entrenados y ajustados por instrucciones son abrazando la cara Y Kaggle Se puede descargar desde . Google también ha introducido una biblioteca de habilidades oficial llamada Gemma Skills Repository para respaldar los procesos de desarrollo de agentes.
