Z.ai lanza GLM-5.2: 1 millón de tokens, código abierto (MIT) y sin benchmarks… que días después arrasaron

Rubén Castro, actualizado a 20 junio 2026

El laboratorio chino Z.ai (antes conocido como Zhipu AI) lanzó alrededor del 13 de junio de 2026 su nuevo modelo de lenguaje GLM-5.2, orientado de forma muy clara a la programación y la generación de código. La novedad más llamativa es su ventana de contexto de un millón de tokens, cinco veces mayor que la de su predecesor GLM-5.1, lo que le permite mantener proyectos enteros «en la cabeza» durante una misma conversación.

Pero el modelo también ha dado que hablar por la forma en que se presentó. Z.ai publicó primero la disponibilidad, el contexto ampliado y, sobre todo, sus pesos abiertos bajo licencia MIT, sin acompañar el anuncio de una sola cifra oficial de rendimiento. Pocos días después, las pruebas independientes situaban a GLM-5.2 a la cabeza de todos los modelos de pesos abiertos.

En este artículo repasamos qué trae GLM-5.2 de nuevo, por qué su lanzamiento sin benchmarks resultó tan inusual, cómo rinde y cómo se compara con los demás modelos abiertos (DeepSeek, MiniMax, Qwen) y con la élite propietaria (Claude Opus 4.8, Claude Fable 5, GPT-5.5), y cómo puede usarse desde Europa, con su precio y la nota imprescindible sobre privacidad para quienes manejan datos sensibles.

Qué es GLM-5.2 y qué trae de nuevo

GLM-5.2 es un modelo de lenguaje grande (LLM) centrado en programación y tareas de código. Su gran salto frente a GLM-5.1 está en la ventana de contexto: pasa de los aproximadamente 200.000 tokens a un millón de tokens, un aumento de cinco veces que le permite trabajar con bases de código completas o documentación extensa sin perder el hilo. La respuesta máxima por turno llega hasta unos 131.072 tokens.

La otra novedad de uso diario son los dos niveles seleccionables de «esfuerzo de razonamiento»:

High: el modo equilibrado y más rápido, pensado para la mayoría de tareas.
Max: razonamiento extendido paso a paso, orientado a problemas de programación complejos y de varios pasos.

Bajo el capó, GLM-5.2 mantiene una arquitectura Mixture-of-Experts de 744.000 millones de parámetros, de los que solo se activan unos 40.000 millones por token. Es el mismo tronco de la familia GLM-5/5.1: las mejoras no llegan por sumar parámetros, sino por el entrenamiento, el manejo del contexto y el nuevo marco de razonamiento.

Pesos abiertos bajo licencia MIT. Z.ai publicó GLM-5.2 con sus pesos abiertos en Hugging Face (cuenta zai-org). La licencia MIT permite descargarlo, ajustarlo (fine-tuning) y alojarlo por cuenta propia de forma totalmente gratuita, algo poco habitual en un modelo de este nivel.

El lanzamiento más raro: sin benchmarks… y luego, líder de los abiertos

Lo más insólito del estreno fue lo que faltaba. Z.ai apostó por sacar primero la disponibilidad, el contexto de un millón de tokens y el plan de código abierto, y no publicó ninguna puntuación oficial de benchmark en el momento del lanzamiento. En un sector donde los anuncios suelen abrir con tablas comparativas, la decisión llamó la atención.

El silencio duró poco. En torno a tres o cuatro días después, llegaron las pruebas independientes. Según la consultora independiente Artificial Analysis, en su Intelligence Index (v4.1) GLM-5.2 obtuvo una puntuación de 51, situándose por delante de todos los modelos de pesos abiertos, incluidos MiniMax-M3 y DeepSeek V4 Pro, ambos con 44.

Conviene subrayar que esas cifras son de terceros, no afirmaciones oficiales de Z.ai en el lanzamiento. Aun así, el arco resultante es difícil de ignorar: el modelo salió sin números y, pocos días más tarde, lideraba el ranking de los abiertos.

A ese contexto se suma un detalle de fondo sobre la procedencia del proyecto. Z.ai es un laboratorio chino surgido como spin-off de la Universidad de Tsinghua, fundado en 2019, que salió a bolsa en Hong Kong en enero de 2026. Su anterior GLM-5 se entrenó, según se ha informado, enteramente sobre unos 100.000 chips Huawei Ascend, sin hardware de NVIDIA, un dato que da idea de la madurez de la alternativa china en infraestructura de IA.

Los benchmarks que arrasaron: SWE-bench Pro y compañía

Más allá de ese Intelligence Index general, las cifras que de verdad explican el revuelo son las de codificación de largo recorrido: resolver problemas reales de programación que requieren muchos pasos. Aquí es donde GLM 5.2 se ha colocado al frente de los modelos abiertos.

SWE-bench Pro: 62,1 % — la mejor puntuación de cualquier modelo abierto, por delante de GPT-5.5 (58,6 %), de su antecesor GLM 5.1 (58,4 %) y de DeepSeek V4 Pro (55,4 %).
Terminal-Bench 2.1: 81,0 — se queda a solo 4 puntos de Claude Opus 4.8 (85,0), uno de los mejores modelos propietarios.
Es además el modelo abierto número uno en los benchmarks de codificación de largo recorrido FrontierSWE, PostTrainBench y SWE-Marathon, como muestran las propias gráficas de Z.ai.

glm 5 2 benchmarks zai — Evaluación de tareas de largo recorrido de Z.ai: GLM-5.2 frente a Opus 4.8/4.7, GPT-5.5 y Gemini 3.1 Pro. Imagen: Z.ai.

SWE-bench Pro: GLM 5.2 frente a otros modelos (cifras de junio de 2026)
Modelo	Tipo	SWE-bench Pro
Claude Fable 5	Propietario	80.3%
Claude Opus 4.8	Propietario	69.2%
GLM 5.2	Abierto (MIT)	62.1%
MiniMax M3	Abierto	59.0%
GPT-5.5	Propietario	58.6%
GLM 5.1	Abierto (MIT)	58.4%
DeepSeek V4 Pro	Abierto	55.4%
Gemini 3.1 Pro	Propietario	~54%

Cuidado al comparar benchmarks. No es lo mismo SWE-bench Verified que SWE-bench Pro: el segundo es más difícil y arroja puntuaciones más bajas, así que nunca mezcles cifras de uno y otro. Además, una misma prueba puede dar resultados distintos según el harness (el andamiaje de software que rodea al modelo) y según si la cifra la reporta el propio fabricante o un evaluador independiente. Tómalas como una foto orientativa a fecha de junio de 2026, no como una verdad absoluta.

¿Qué significa todo esto en la práctica? Que GLM 5.2 es excelente resolviendo issues reales de GitHub y tareas agénticas (lo que se conoce como agentic coding), un terreno donde hasta hace poco los modelos abiertos iban claramente por detrás.

GLM 5.2 frente a los demás modelos abiertos

2026 ha sido el año en que los modelos abiertos —en su mayoría chinos— han cerrado la distancia con los propietarios. GLM 5.2 llega a un terreno muy disputado. Estos son sus principales rivales:

Los mejores modelos abiertos de mediados de 2026
Modelo	Desarrollador	Punto fuerte	SWE-bench Pro
GLM 5.2	Z.ai (Zhipu)	Líder abierto en ingeniería de software	62.1%
MiniMax M3	MiniMax	Multimodal nativo + 1M de contexto	59.0%
DeepSeek V4 Pro	DeepSeek	Algoritmos (LiveCodeBench nº1 global)	55.4%
Qwen 3.7	Alibaba	Eficiencia y agentes con 1M de contexto	—
Kimi K2.6	Moonshot AI	Enjambres de agentes y sesiones largas	—
Llama 3.3 70B	Meta	Referencia para despliegues locales	—

DeepSeek V4 Pro: el rey de los algoritmos

DeepSeek V4 Pro es probablemente el modelo abierto más equilibrado y “veterano”. Domina la programación algorítmica y competitiva: es el número uno mundial (abierto o cerrado) en LiveCodeBench con un 93,5 % y alcanza 3206 puntos en Codeforces. GLM 5.2 le gana en ingeniería de software real (SWE-bench Pro 62,1 % frente a 55,4 %), pero DeepSeek sigue siendo la opción si lo tuyo son los algoritmos o quieres el coste por token más bajo.

MiniMax M3: el multimodal

Lanzado también en junio de 2026, MiniMax M3 fue el primer modelo abierto en combinar codificación de frontera, 1 millón de contexto y multimodalidad nativa. En SWE-bench Pro se queda en 59,0 %, por debajo de GLM 5.2, pero si necesitas que el modelo “vea” imágenes además de programar, es una baza única entre los abiertos.

Qwen y Kimi: eficiencia y agentes

Qwen 3.7 (Alibaba) brilla por su eficiencia por parámetro y por sus capacidades agénticas con 1 millón de contexto; es de los abiertos más usados para tareas de agente.
Kimi K2.6 (Moonshot AI) está especializado en enjambres de agentes y sesiones autónomas muy largas.
Llama 3.3 70B (Meta) sigue siendo la referencia para despliegues locales más ligeros, aunque ya no compite en la cima.

Entonces, ¿por qué GLM 5.2?

Porque ofrece la mejor combinación de codificación agéntica + contexto de 1M + licencia MIT + precio bajo del campo abierto. Si tu prioridad es resolver tareas de programación reales con un modelo que puedes alojar tú mismo, hoy es la opción a batir.

GLM 5.2 frente a los modelos top: Opus 4.8, Fable 5, GPT-5.5 y Gemini

Aquí toca ser honestos: GLM 5.2 no destrona a la élite propietaria. Los modelos de frontera de Anthropic, OpenAI y Google siguen un escalón por encima en capacidad bruta. Lo interesante es cuánto se ha acortado la distancia y a qué precio.

Claude Fable 5: la nueva frontera (de Anthropic)

El 9 de junio de 2026 Anthropic presentó Claude Fable 5, el primer modelo de su nueva clase “Mythos”, por encima de la gama Opus. Es, sencillamente, lo mejor que hay: 95,0 % en SWE-bench Verified y un 80,3 % en SWE-bench Pro, la cifra más alta de cualquier modelo probado (Opus 4.8 se queda en 69,2 %). El precio también es de frontera: 10 $ por millón de tokens de entrada y 50 $ de salida.

Disponibilidad: a fecha de junio de 2026, el acceso a Fable 5 (y a su gemelo Mythos 5) quedó restringido temporalmente a raíz de una directiva de control de exportación de EE. UU. Es un recordatorio de por qué los modelos abiertos como GLM 5.2 resultan atractivos: nadie puede “apagarte” el acceso.

Claude Opus 4.8 y GPT-5.5

Claude Opus 4.8 lidera SWE-bench Pro entre los modelos de uso general “clásicos” con un 69,2 % y manda en Terminal-Bench 2.1 con 85,0 (GLM 5.2: 81,0). Es la referencia de fiabilidad en codificación agéntica.
GPT-5.5 (OpenAI) se queda en 58,6 % en SWE-bench Pro, por debajo de GLM 5.2. Aquí está la noticia: un modelo abierto y barato supera al buque insignia de OpenAI en este benchmark concreto, a una fracción del coste.
Gemini 3.1 Pro (Google) queda por detrás de Opus 4.8 en SWE-bench Pro (unos 15 puntos menos).

La conclusión del enfrentamiento

La jerarquía de mediados de 2026, en codificación, queda más o menos así: Fable 5 > Opus 4.8 > GLM 5.2 ≈ GPT-5.5 > Gemini 3.1 Pro, con GLM 5.2 como único abierto que se cuela en la conversación de los grandes. Para muchas tareas reales, la diferencia entre GLM 5.2 y un modelo propietario no justifica pagar entre 6 y 11 veces más.

Precio, cómo usarlo y la nota para Europa

Uno de los mayores atractivos de GLM-5.2 es su coste. Por API ronda los 1,40 dólares por millón de tokens de entrada y los 4,40 dólares por millón de tokens de salida, aproximadamente una sexta parte del precio de GPT-5.5 y en torno a una décima parte del nivel más alto de Claude. Para quienes prefieren tarifa plana, existe además el GLM Coding Plan en tres niveles:

Plan	Precio
Lite	10 $/mes
Pro	30 $/mes
Max	80 $/mes

En cuanto a cómo usarlo, desde el primer día está disponible a través de un endpoint compatible con la API de Anthropic, lo que permite emplearlo en herramientas de programación como Claude Code o Cline simplemente cambiando la URL base y el modelo. También llegó listo en Cloudflare Workers AI y en OpenRouter, además del chat web en chat.z.ai.

La nota para Europa. GLM-5.2 es perfectamente utilizable desde el continente, tanto por web como por API. Ahora bien, la API directa se ejecuta sobre infraestructura china y estadounidense, así que para datos sensibles bajo el RGPD la opción limpia es autoalojar los pesos abiertos, que la licencia MIT permite sin coste.

Entre el contexto de un millón de tokens, los pesos abiertos y un precio muy por debajo de los grandes rivales, GLM-5.2 se perfila como una de las opciones más interesantes del momento para quien programa con ayuda de IA.

Conclusión: ¿para quién es GLM 5.2?

GLM 5.2 no es el modelo más inteligente del planeta —ese título es de la frontera propietaria, hoy encabezada por Claude Fable 5—, pero ha logrado algo que parecía lejano hace un año: poner un modelo abierto en la conversación de los grandes en codificación agéntica, y hacerlo con licencia MIT y a precio de derribo.

Te interesa GLM 5.2 si…

Quieres el mejor modelo abierto para programar y tareas de agente a mediados de 2026.
Necesitas alojar la IA en tu propia infraestructura (privacidad, soberanía de datos, sin dependencia de un proveedor).
Buscas capacidad de frontera a coste contenido y te basta con quedar un peldaño por debajo de Opus 4.8 / Fable 5.
Trabajas con contextos enormes (bases de código completas) gracias a su ventana de 1M.

Quizá te convenga otra opción si…

Necesitas lo máximo de lo máximo y el presupuesto no es problema → Claude Fable 5 u Opus 4.8.
Tu trabajo es algorítmico/competitivo → DeepSeek V4 Pro.
Necesitas multimodalidad en un modelo abierto → MiniMax M3.

En definitiva, GLM 5.2 confirma la gran tendencia de 2026: la brecha entre lo abierto y lo cerrado se estrecha cada trimestre. Para una mayoría de tareas de programación reales, ya no hace falta pagar la tarifa de frontera para obtener resultados de frontera.

Nota: el ritmo de lanzamientos en IA es vertiginoso y los benchmarks cambian casi cada semana. Las cifras de este artículo corresponden a junio de 2026; revísalas si lo lees más adelante.

Rubén Castro

Redactor

Apasionado de explorar y diseccionar lo último en tecnología. Tengo mucha experiencia en el mundo de los ordenadores y el gaming, aunque también me gustan todos los tipos de gadgets.