DeepSeek libera DSpark, su framework abierto que acelera la inferencia de IA hasta un 85 %

Rubén Castro, 30 junio 2026

DeepSeek ha vuelto a mover ficha en la carrera de la IA, esta vez por la vía de la eficiencia. Junto a la Universidad de Pekín, ha liberado DSpark, un framework de decodificado especulativo que acelera la generación de texto de sus modelos entre un 60 % y un 85 % sin perder calidad, sin reentrenar el modelo y sin cambiar de hardware. Se publica con licencia MIT y ya funciona en producción en los modelos DeepSeek-V4-Flash y V4-Pro.ref

Qué es el decodificado especulativo

Los modelos de lenguaje generan texto token a token, de forma secuencial: cada palabra depende de la anterior, lo que crea un cuello de botella difícil de esquivar y limita la velocidad de respuesta.

El decodificado especulativo (speculative decoding) rompe ese ritmo con un truco elegante: un modelo «borrador» pequeño y rápido propone un bloque de varios tokens candidatos, y el modelo principal los verifica de una sola pasada. Mediante un muestreo por rechazo se acepta la secuencia válida más larga y se añade un token extra «de regalo». Como la regla preserva exactamente la distribución del modelo grande, no hay pérdida de calidad: la salida es idéntica, solo que se llega a ella antes.

La aportación de DSpark

La novedad de DSpark está en cómo construye ese modelo borrador. Combina dos enfoques —una «cabeza» paralela pesada (estilo DFlash) seguida de una pequeña cabeza secuencial de Markov (estilo Eagle)— para mejorar de forma notable la tasa de aceptación de los tokens propuestos. La configuración que se distribuye, DSpark-5, trabaja con bloques de cinco tokens; ampliar el bloque de 4 a 16 apenas añade un 0,2-1,3 % de latencia por ronda y, a cambio, alarga hasta un 30 % la secuencia aceptada.

Los números, medidos contra la línea base de un solo token, son contundentes: la velocidad de generación por usuario sube entre un 60 % y un 85 % en DeepSeek-V4-Flash y entre un 57 % y un 78 % en V4-Pro, manteniendo idéntica la calidad. Bajo restricciones de latencia muy estrictas, el equipo llega a citar hasta un 661 % más de rendimiento, aunque con honestidad matiza que esa cifra refleja un escenario en el que la base de un token casi se desploma: más que un «6×» habitual, mide hasta dónde amplía la frontera de lo posible.ref

Abierto y con licencia MIT

DeepSeek no se ha quedado solo en el framework. Junto a DSpark publica DeepSpec, una base de código completa para entrenar y evaluar modelos borrador de decodificado especulativo —cubre DSpark, DFlash y Eagle3— con un pipeline de tres fases (preparación de datos, entrenamiento multi-GPU y evaluación) sobre nueve benchmarks como GSM8K, MATH500, HumanEval o LiveCodeBench. Todo ello con licencia MIT y los checkpoints disponibles en GitHub y Hugging Face.

El movimiento encaja con la estrategia de la compañía: en un momento en que el coste de la inferencia y la presión sobre los chips marcan el ritmo del sector, acelerar la generación sin comprar más hardware ni degradar el modelo es justo lo que la industria necesita. Y hacerlo en abierto pone la herramienta al alcance de cualquiera que quiera exprimir sus propios despliegues.

Rubén Castro

Redactor

Apasionado de explorar y diseccionar lo último en tecnología. Tengo mucha experiencia en el mundo de los ordenadores y el gaming, aunque también me gustan todos los tipos de gadgets.