APEX: cuantización inteligente para modelos MoE de IA

Rubén Castro, 17 junio 2026

Cuando queremos ejecutar un modelo de inteligencia artificial grande en hardware doméstico, el principal obstáculo no es la velocidad: es la memoria. La cuantización es la técnica que permite reducir el peso de un modelo comprimiendo sus datos numéricos, a cambio de aceptar cierta pérdida de calidad. El problema es que los métodos habituales —INT4, INT8, GPTQ, AWQ— aplican el mismo nivel de compresión a todos los parámetros del modelo sin distinción. Tratan igual un tensor crítico que uno secundario. El resultado es un compromiso aceptable, pero no el óptimo.

APEX (Adaptive Precision for EXpert Models) propone un enfoque distinto: en lugar de un único nivel de bits para todo el modelo, asigna distintos niveles de precisión a cada parte según su importancia real. La técnica fue desarrollada por Ettore Di Giacinto y Richard Palethorpe del equipo de LocalAI y publicada en marzo de 2026. Está diseñada específicamente para modelos de arquitectura Mixture-of-Experts (MoE), que son precisamente los que más tienen que ganar con este tratamiento diferenciado: modelos como Qwen3.5-35B-A3B o Gemma 4 26B que tienen cientos de expertos especializados pero solo activan unos pocos por cada token procesado.

Lo más relevante para el usuario final es que APEX no requiere herramientas especiales. Los modelos se distribuyen en formato GGUF y son compatibles con llama.cpp, Ollama, LM Studio y LocalAI tal como ya los usas hoy. La diferencia está en que, con el mismo o menos espacio en disco y VRAM, los resultados son mejores que con las cuantizaciones convencionales del mismo tamaño.

¿Qué es la cuantización y por qué importa?

Un modelo de lenguaje grande es, en esencia, una colección enorme de números de punto flotante llamados pesos o parámetros. Cada uno de esos valores describe cómo el modelo transforma una entrada en una salida. El problema es que almacenar millones —o miles de millones— de números en alta precisión consume cantidades de memoria que solo el hardware de centro de datos puede asumir. Ahí entra la cuantización.

Cuantizar un modelo significa representar esos pesos con menos bits de los que se usaron durante el entrenamiento. Si el entrenamiento se hace en precisión de 16 bits (BF16 o FP16), cuantizar a 8 bits (INT8) reduce el tamaño a la mitad; cuantizar a 4 bits (INT4) lo reduce a la cuarta parte. La consecuencia es que un modelo que en su forma original no cabe en ninguna GPU de consumo puede, cuantizado, ejecutarse en una tarjeta de 16 GB de VRAM o incluso menos.

Los métodos más extendidos hoy en día son:

INT8 / INT4: compresión directa a enteros de 8 o 4 bits. Rápidos de aplicar, ampliamente soportados.
GPTQ: cuantización post-entrenamiento que minimiza el error capa por capa usando una pequeña muestra de datos de calibración.
AWQ (Activation-aware Weight Quantization): identifica qué pesos son más importantes observando las activaciones reales del modelo y los protege con mayor precisión.

Todos estos métodos comparten una misma suposición implícita: aplican el mismo nivel de bits a todos los tensores del modelo, independientemente de si ese tensor tiene un papel crítico en la calidad de las respuestas o si es relativamente prescindible. Es un enfoque razonable para modelos densos convencionales, donde todos los parámetros se activan en cada inferencia. Pero en los modelos de arquitectura Mixture-of-Experts, esa suposición deja valor sobre la mesa.

El tradeoff fundamental de la cuantización se puede resumir así: a menor número de bits, menor consumo de memoria y mayor velocidad de inferencia, pero también mayor riesgo de degradación en la calidad de las respuestas. La perplejidad es la métrica habitual para medir esa degradación: valores más bajos indican que el modelo predice mejor el texto de referencia. Con las técnicas convencionales, hay un punto a partir del cual reducir más los bits cuesta demasiado en calidad. APEX desplaza ese punto.

Qué hace diferente a APEX respecto a GPTQ e INT4

La idea central de APEX es sencilla de enunciar aunque compleja de ejecutar: en lugar de un único nivel de compresión para todo el modelo, cada tensor recibe el nivel de bits que merece según su papel real en la red. Para aplicar esto con acierto, los autores identificaron tres propiedades estructurales de los modelos Mixture-of-Experts que los métodos convencionales ignoraban por completo.

Primera propiedad: dispersión estructural

En un modelo MoE, no todos los expertos trabajan al mismo tiempo. En el caso de Qwen3.5-35B-A3B, por ejemplo, el modelo tiene 256 expertos por capa, pero en cada inferencia solo se activan aproximadamente 8 de ellos para cada token procesado. Esto significa que la inmensa mayoría de los expertos están dormidos en la mayor parte de las consultas. APEX trata estos expertos de forma diferente: los que se activan con frecuencia y en contextos variados reciben más bits de precisión; los especializados que rara vez se convocan pueden comprimirse más agresivamente sin que el usuario lo note.

Segunda propiedad: distribución estadística distinta por tipo de experto

No todos los expertos tienen la misma distribución interna de pesos. Algunos tienen distribuciones más planas y uniformes, que toleran bien la compresión. Otros tienen distribuciones más pronunciadas o con valores extremos, donde perder precisión sí introduce errores apreciables. APEX analiza estas distribuciones y ajusta el nivel de bits de cada experto en consecuencia, en lugar de aplicar una solución única para todos.

Tercera propiedad: sensibilidad no uniforme de las capas

Las capas de una red neuronal no son intercambiables. En los modelos MoE grandes, las primeras y las últimas capas (aproximadamente las 5 iniciales y las 5 finales) son las que más influyen en la coherencia y calidad del resultado final. APEX les asigna mayor precisión. Las capas intermedias, que tienden a ser más redundantes y robustas a la compresión, reciben menos bits. Los métodos convencionales no distinguen entre capas: aplican el mismo nivel a toda la red de principio a fin.

El resultado en números

Los autores validaron APEX principalmente sobre Qwen3.5-35B-A3B y reportan tres variantes con perfiles distintos:

APEX Calidad (21,3 GB): perplejidad de 6,527 — mejor que el propio modelo FP16 completo, que obtiene 6,537. El modelo comprimido supera en esta métrica a su versión sin comprimir, algo que no ocurre con GPTQ ni INT4 convencionales.
APEX Balanced (23,6 GB): alcanza la misma calidad que una cuantización Q8_0, pero el archivo Q8_0 equivalente ocupa 34,4 GB. La diferencia es un 31% menos de tamaño a igual calidad.
APEX Mini (12,2 GB): la variante más agresiva en compresión. Cabe en GPUs de 16 GB de VRAM y alcanza 74,4 tokens por segundo. Es la opción para quien prioriza que el modelo quepa en su hardware sobre maximizar la calidad.

La clave de estos resultados está en que APEX no comprime menos en conjunto: comprime de forma más inteligente, poniendo los bits donde más importan y ahorrándolos donde menos se notan.

¿Quién se beneficia y qué modelos funcionan ya?

APEX no está pensado para centros de datos. Su público natural es el de los usuarios con hardware de consumo que quieren ejecutar modelos grandes en local sin recurrir a la nube: quienes tienen una GPU de 16 GB de VRAM —una RTX 4080, una RTX 3090, una RX 7900 XTX— y hasta ahora se veían obligados a elegir entre modelos pequeños o cuantizaciones tan agresivas que degradaban notablemente la calidad.

Con APEX Mini (12,2 GB), ese perfil de usuario puede ejecutar Qwen3.5-35B-A3B completo a 74,4 tokens por segundo en una sola GPU de 16 GB. Antes, con INT4 estándar, o bien el modelo no cabía, o la calidad quedaba claramente por debajo de lo que APEX Balanced ofrece con más espacio en disco pero igual VRAM.

Ecosistema compatible

Uno de los puntos fuertes de APEX es que no exige herramientas nuevas. Los modelos se publican en formato GGUF y funcionan directamente con:

llama.cpp en cualquier versión reciente compatible con GGUF.
LocalAI, la plataforma de los propios autores de APEX.
Ollama, la herramienta más popular para ejecutar LLMs en local con interfaz de línea de comandos y API REST.
LM Studio, la opción con interfaz gráfica más extendida entre usuarios no técnicos.

No hay que modificar configuraciones especiales ni instalar capas adicionales. Si ya usas alguna de estas herramientas con modelos GGUF, puedes usar APEX de la misma forma.

Modelos disponibles

En el momento de publicar este artículo, hay más de 25 modelos en formato APEX ya disponibles para descarga. La colección completa se encuentra en APEX Quants (GGUF) de mudler en Hugging Face. Entre los modelos incluidos están:

Qwen3.5-35B-A3B — el modelo sobre el que se desarrolló y validó APEX. Disponible en las tres variantes (Calidad, Balanced, Mini).
Gemma 4 26B-A4B — el modelo MoE de Google DeepMind de la familia Gemma 4.
MiniMax-M2.7 — versión compacta del modelo de MiniMax.
Step-3.5-Flash — modelo de la empresa Step AI.

La colección continúa creciendo a medida que el equipo de LocalAI aplica APEX a nuevos modelos MoE públicos.

Lo que aún no sabemos. APEX fue validado principalmente sobre Qwen3.5-35B-A3B por sus propios autores. Los resultados de perplejidad publicados son sólidos para ese modelo, pero no existen todavía replicaciones independientes que confirmen que las mejoras se mantienen de forma consistente en todos los modelos MoE de la colección. La técnica es prometedora y los números iniciales son convincentes, pero conviene esperar a que la comunidad valide estos resultados en más arquitecturas antes de considerarlos definitivos.

Rubén Castro

Redactor

Apasionado de explorar y diseccionar lo último en tecnología. Tengo mucha experiencia en el mundo de los ordenadores y el gaming, aunque también me gustan todos los tipos de gadgets.