Google lanza los esfuerzos ligeros de Gemma 3n, expandiendo los esfuerzos de IA de Edge - Campus Technology

Google lanza los esfuerzos ligeros de Gemma 3n, expandiendo EDGE AI

Por John K. Waters
07/07/25

Google Deepmind ha lanzado oficialmente a Gemma 3n, la última versión de su modelo de IA generativo ligero diseñado específicamente para dispositivos móviles y de borde, un movimiento que refuerza el énfasis de la compañía en la computación en el dispositivo.

El nuevo modelo se basa en el impulso de la familia Gemma original, que ha visto más de 160 millones de descargas acumulativas desde su lanzamiento el año pasado. Gemma 3n presenta soporte multimodal ampliado, una arquitectura más eficiente y nuevas herramientas para los desarrolladores que se dirigen a aplicaciones de baja latencia en teléfonos inteligentes, dispositivos portátiles y otros sistemas integrados.

«Este lanzamiento desbloquea toda la potencia de una arquitectura móvil primero», dijeron Omar Sanseviero e Ian Ballantyne, ingenieros de Relaciones de Desarrolladores de Google, en una reciente publicación de blog.

Multimodal y eficiente en la memoria por diseño

Gemma 3n está disponible en dos tamaños de modelo, E2B (5 mil millones de parámetros) y E4B (8 mil millones), con huellas de memoria efectivas similares a modelos mucho más pequeños: 2GB y 3GB respectivamente. Ambas versiones admiten de forma nativa de texto, imagen, audio y entradas de video, lo que permite que las tareas de inferencia complejas se ejecuten directamente en hardware con recursos de memoria limitados.

Una innovación central en Gemma 3N es su arquitectura Matformer (Matryoshka Transformer), que permite a los desarrolladores extraer submodelos más pequeños o ajustar dinámicamente el tamaño del modelo durante la inferencia. Este enfoque modular, combinado con herramientas de configuración de MIX-N-Match, brinda a los usuarios un control granular sobre el rendimiento y el uso de la memoria.

Google también introdujo las incrustaciones para la capa (PLE), una técnica que descarga parte del modelo a las CPU, reduciendo la dependencia de la memoria del acelerador de alta velocidad. Esto permite una mejor calidad del modelo sin aumentar los requisitos de VRAM.

Puntos de referencia competitivos y rendimiento

Gemma 3N E4B logró una puntuación de Lmarena superior a 1300, el primer modelo de menos de 10 mil millones de parámetros para hacerlo. La Compañía atribuye esto a innovaciones arquitectónicas y técnicas de inferencia mejoradas, incluido el intercambio de caché de KV, que acelera el procesamiento de contexto largo al reutilizar los datos de la capa de atención.

Las pruebas de referencia muestran hasta una doble mejora en la latencia de pregramado sobre el modelo anterior de Gemma 3.

En las aplicaciones del habla, el modelo admite la traducción del habla y el habla en el dispositivo a través de un codificador universal basado en modelos de voz, mientras que un nuevo módulo de visión MobileNet-V5 ofrece una comprensión de video en tiempo real en hardware como Google Pixel Devices.

Soporte de ecosistema más amplio y enfoque de desarrollador

Google enfatizó la compatibilidad del modelo con herramientas y plataformas de desarrolladores ampliamente utilizadas, incluidos los abrazos de Face Transformers, Llama.cpp, Ollama, Docker y el marco MLX de Apple. La compañía también lanzó un laboratorio de Matformer para ayudar a los desarrolladores a ajustar los submodelos utilizando configuraciones de parámetros personalizados.

«Desde abrazar la cara hasta MLX hasta Nvidia Nemo, estamos enfocados en hacer que Gemma sea accesible en todo el ecosistema», escribieron los autores.

Como parte de su alcance comunitario, Google presentó el Gemma 3N Impact Challenge, un concurso de desarrolladores que ofrece $ 150,000 en premios para aplicaciones del mundo real construidas en la plataforma.

Contexto de la industria

Gemma 3n refleja una tendencia más amplia en el desarrollo de la IA: un cambio de la inferencia basada en la nube a la computación de borde a medida que el hardware mejora y los desarrolladores buscan un mayor control sobre el rendimiento, la latencia y la privacidad. Las principales empresas tecnológicas compiten cada vez más no solo por la potencia bruta, sino también por la flexibilidad de la implementación.

Aunque modelos como Meta’s Llama y la serie QWEN3 de Alibaba han ganado tracción en el dominio de código abierto, Gemma 3n indica la intención de Google de dominar el espacio de inferencia móvil al equilibrar el rendimiento con eficiencia e integración.

Los desarrolladores pueden acceder a los modelos a través de Google AI Studio, abrazando Face o Kaggle, e implementarlos a través de Vertex AI, Cloud Run y otros servicios de infraestructura.

Para obtener más información, visite el sitio de Google.

Sobre el autor

John K. Waters es el editor en jefe de varios sitios de converge360.com, con un enfoque en el desarrollo de alta gama, la IA y la tecnología futura. Ha estado escribiendo sobre tecnologías de vanguardia y cultura de Silicon Valley durante más de dos décadas, y ha escrito más de una docena de libros. También co-scrito la película documental Silicon Valley: un renacimiento de 100 añosque se emitió en PBS. Se le puede contactar en [email protected].

Google lanza los esfuerzos ligeros de Gemma 3n, expandiendo EDGE AI

Multimodal y eficiente en la memoria por diseño

Puntos de referencia competitivos y rendimiento

Soporte de ecosistema más amplio y enfoque de desarrollador

Contexto de la industria

Comparte esto: