Modelo abierto de Google DeepMind que acelera hasta 4 veces la generación de texto: DiffusionGemma

Google DeepMind ha anunciado DiffusionGemma, un modelo experimental de inteligencia artificial de código abierto que investiga la difusión de texto. DiffusionGemma, un nuevo miembro de la familia de modelos abiertos Gemma 4, no produce resultados de forma lineal como la mayoría de los modelos de inteligencia artificial. En cambio, puede producir un bloque completo de texto en paralelo. Según la información compartida por Google, esta característica hace que el modelo sea más rápido y eficiente cuando se ejecuta en hardware local como Nvidia DGX o una GPU para juegos normal.

DiffusionGemma, publicado bajo la licencia Apache 2.0, se posiciona como un modelo Mixture of Experts con 26 mil millones de parámetros. Sin embargo, el modelo sólo activa 3.800 millones de parámetros durante la inferencia. Google afirma que el modelo puede ejecutarse en GPU de consumo de alta gama con un límite de VRAM de 18 GB cuando está cuantificado.

Lo que destaca de DiffusionGemma es que tiene una lógica de producción diferente a los modelos clásicos de grandes lenguajes autorregresivos. Mientras que los modelos tradicionales producen texto de izquierda a derecha, ficha por ficha; DiffusionGemma elabora un bloque de 256 tokens a la vez. Luego, refina este texto en varias pasadas y entrega el resultado final. Este enfoque permite un uso más eficiente de la GPU, especialmente en experiencias de IA locales de un solo usuario.

Según Google, DiffusionGemma puede ofrecer una generación de texto hasta 4 veces más rápida en GPU dedicadas. Según los datos compartidos por la empresa, el modelo puede producir más de 1000 tokens por segundo en una sola NVIDIA H100 y más de 700 tokens por segundo en NVIDIA GeForce RTX 5090.

Google; Afirma que el mecanismo de atención bidireccional del modelo puede resultar ventajoso en estructuras de texto no lineales, como la edición en línea, procesos rápidos de prueba y error, finalización de código, secuencias de aminoácidos y gráficos matemáticos. Sin embargo, Google también enfatiza que DiffusionGemma no debe verse como un modelo de producción que reemplazará directamente a Gemma 4. La compañía dice que el modelo está optimizado para la velocidad y la producción paralela; Recomienda que se prefieran los modelos Gemma 4 estándar en escenarios de producción donde se requiere la más alta calidad de salida.

Los pesos de los modelos de DiffusionGemma están disponibles en Hugging Face. Google también afirmó que el modelo se puede utilizar con herramientas como MLX, vLLM y Hugging Face Transformers; Anunció que el soporte para llama.cpp llegará pronto. En el lado de la nube, el modelo se puede probar a través de Gemini Enterprise Agent Platform Model Garden y NVIDIA NIM.

Comparte esto: