Modelo de codificación ponderado abierto con ventana de contexto de 1 millón de tokens de Z.ai: GLM-5.2

Z.ai, con sede en China, lanza su nuevo modelo insignia que se centra en tareas de desarrollo de software basado en agentes y codificación a largo plazo. GLM-5.2lanzado. El modelo se destaca especialmente por su capacidad para comprender grandes bases de código a la vez, mantener procesos de refactorización de varios pasos y gestionar el flujo de desarrollo de software de un extremo a otro.

Las características más notables de GLM-5.2 incluyen una ventana de contexto de 1 millón de tokens, una capacidad máxima de salida de 128 mil tokens, diferentes niveles de esfuerzo de pensamiento y una estructura de peso abierto con licencia del MIT. Según la información de Hugging Face, el modelo tiene 753 mil millones de parámetros.

Al afirmar que el modelo puede procesar el contexto de ingeniería a escala del proyecto, Z.ai afirma que proporciona resultados más estables en los flujos de desarrollo que van desde los requisitos hasta el producto aplicable. En este sentido, podemos decir que GLM-5.2 se ha convertido en una alternativa de agente software que puede ejecutar tareas a largo plazo en grandes bases de código, en lugar de ser simplemente un asistente que escribe fragmentos cortos de código.

El hecho de que el modelo tenga una ventana de contexto de 1 millón de tokens es especialmente importante para quienes ejecutan proyectos de software a gran escala. En su documentación, Z.ai enfatiza que GLM-5.2 está diseñado para preservar los límites de los módulos, los contratos API, las estructuras de directorios, las decisiones arquitectónicas y el contexto de conversación histórica durante períodos de tiempo más largos. De esta manera, el modelo pretende evaluar no sólo archivos específicos de una base de código sino también el contexto más amplio del proyecto dentro del mismo flujo de trabajo.

GLM-5.2 tiene dos niveles diferentes de esfuerzo de pensamiento: «Alto» y «Máximo». Gracias a este enfoque, los desarrolladores pueden elegir entre velocidad, coste y calidad de respuesta. Z.ai recomienda el nivel Max para tareas de codificación complejas y de varios pasos.

Según la tabla de referencia compartida por Z.ai, el modelo obtuvo 62,1 puntos en SWE-bench Pro, dejando atrás la puntuación de 58,4 del GLM-5.1. En la misma tabla, la puntuación SWE-bench Pro de GPT-5.5 es 58,6 y la puntuación de Gemini 3.1 Pro es 54,2. En Terminal Bench 2.1, se ve que GLM-5.2 ha dado un salto significativo en comparación con GLM-5.1 con 81,0 puntos.

Además, Z.ai señala que GLM-5.2 ocupa el primer lugar entre los modelos con muchas vulnerabilidades en puntos de referencia de ingeniería de software de larga duración como FrontierSWE, PostTrainBench y SWE-Marathon. Según la documentación de la compañía, el modelo está sólo aproximadamente 1 punto por detrás del Claude Opus 4.8 en FrontierSWE, mientras que supera a GPT-5.5 y Opus 4.7 en algunos puntos de referencia. En este punto, vale la pena señalar que los resultados fueron compartidos por Z.ai y las pruebas independientes mostrarán más claramente el rendimiento del modelo en el mundo real.

Según la página de precios oficial de Z.ai, el uso de la API GLM-5.2 tiene un precio de $1,40 por 1 millón de tokens de entrada, $0,26 por 1 millón de tokens de entrada almacenados en caché y $4,40 por 1 millón de tokens de salida. Se informa que el modelo ofrece un rendimiento de codificación competitivo a largo plazo a aproximadamente una sexta parte del costo en comparación con GPT-5.5.

Z.ai incluye un método llamado IndexShare en GLM-5.2 que hace que el uso de contexto largo sea más eficiente. Gracias a este método, el modelo puede reducir significativamente el costo de transacción cuando opera en una ventana de contexto de 1 millón de tokens. Según el modelo de tarjeta de Hugging Face, IndexShare reduce el costo de transacción por token en 2,9 veces.

Modelo publicado en Hugging Face bajo licencia MIT. transformadores, vLLM, SGLang Y Corredor modelo Docker Se puede utilizar con herramientas como. De esta forma, los desarrolladores pueden ejecutar el modelo localmente, integrarlo en su propia infraestructura o probarlo a través de diferentes proveedores de inferencia.

Fuente de la imagen: ChatGPT

Comparte esto: