El primer superordenador a exaescala tiene un fallo de hardware cada día

Rubén Castro, 11 octubre 2022

Ya están aquí las ofertas de AliExpress para el verano con descuentos y cupones:

  • AFUES03: 3 euros de descuento con 29 euros de compra mínima
  • AFUES08: 8 euros de descuento con 69 euros de compra mínima
  • AFUES20: 20 euros de descuento con 169 euros de compra mínima
  • AFUES30: 30 euros de descuento con 239 euros de compra mínima
  • AFUES50: 50 euros de descuento con 369 euros de compra mínima

Ver ofertas

Se puede acceder a Frontier en línea, pero actualmente no está operativo, su director ha confirmado que hay averías del sistema cada pocas horas, aunque sostiene que es algo típico.


Frontier es único. Consta de 9.408 nodos HPE Cray EX235a, cada uno de los cuales tiene una CPU AMD Trento 7A53 Epyc de 64 núcleos y 512 GB de memoria DDR4. Además, tiene cuatro GPUs AMD Instinct MI250X, cada una de las cuales tiene 128 GB de HBM2e. El sistema tiene un total de 602.112 núcleos de CPU, 8.138.240 núcleos de GPU y 4,6 petabytes (PB) de memoria DDR4 y HBM2e.

Tras finalizar la prueba HPL en mayo con una puntuación de 1,102 ExaFlops/s, Frontier pasó a formar parte del TOP500. Desde entonces, el Laboratorio Nacional de Oak Ridge, en Tennessee, ha estado preparando el superordenador para la investigación que tendrá lugar en enero.

Es posible que haya problemas con el hardware que hagan que se retrase el lanzamiento de Frontier. En Inside HPC se publicó una entrevista con el director del programa de Oak Ridge, Justin Whitt. En el transcurso de la conversación, afirmó que los problemas cotidianos del sistema que Frontier estaba experimentando eran inherentes a un sistema enorme.

Hizo la observación de que el tiempo entre fallos del sistema para un sistema de esta escala se mide en horas, no en días. “Hay que conocer estas deficiencias y asegurarse de que no hay tendencias preocupantes. “Un día en el que no haya un error “sería maravilloso”, dijo Whitt.

Whitt afirmó que los recientes problemas de hardware no fueron causados por el nuevo AMD Instinct MI250X. Sólo un número limitado de socios puede adquirir un AMD MI250X. 220 CUs, 14.080 núcleos, 1700 MHz, 500 W.

Whitt declaró que las GPU eran sólo uno de los muchos problemas. “Hay una buena distribución de los factores de fallo de las piezas comunes. Actualmente, no tengo ninguna preocupación respecto a los productos de AMD”. Añadiendo,

“Hemos experimentado problemas tempranos de naturaleza similar con otros dispositivos, por lo que esto no es un hecho excepcional”.

Whitt declaró que la escala inigualable de Frontier hacía que la puesta a punto fuera “un poco más difícil”, pero la empresa insistió en que, a pesar de los retrasos, seguían en camino de completar el proyecto en 2018-2019.

Rubén Castro

Redactor

Apasionado de explorar y diseccionar lo último en tecnología. Tengo mucha experiencia en el mundo de los ordenadores y el gaming, aunque también me gustan todos los tipos de gadgets.

Consentimiento