AMD admite que su acelerador de IA Instinct MI300X aún no puede superar al Hopper H100 de Nvidia

Rubén Castro, 5 septiembre 2024

Han aparecido las primeras pruebas de rendimiento oficiales del acelerador Instinct MI300X de AMD, diseñado para aplicaciones de IA y centros de datos. En comparación con el Hopper H100 de Nvidia, en el modelo LLama2-70B, un sistema con ocho procesadores Instinct MI300X alcanzó un rendimiento de 21.028 tokens por segundo en modo servidor y 23.514 tokens por segundo en modo offline cuando se emparejó con una CPU EPYC Genoa.

amd admite acelerador instinct mi300x no supera hopper h100 nvidia

Estas cifras son ligeramente inferiores a las conseguidas por ocho aceleradores Nvidia H100, que alcanzaron los 21.605 tokens por segundo en modo servidor y los 24.525 tokens por segundo en modo offline cuando se emparejaron con un procesador Intel Xeon sin especificar.

Cuando se probó con un procesador EPYC Turin, al MI300X le fue un poco mejor, alcanzando un rendimiento de 22.021 tokens por segundo en modo servidor, ligeramente superior a la puntuación del H100. Sin embargo, en modo fuera de línea, el MI300X obtuvo una puntuación inferior a la del sistema H100, alcanzando sólo 24.110 fichas por segundo.

El MI300X admite mayor capacidad de memoria que el H100, lo que podría permitirle ejecutar un modelo de 70.000 millones de parámetros como el LLaMA2-70B en una sola GPU, evitando así la sobrecarga de red asociada a la división del modelo en varias GPU con precisión FP8. Como referencia, cada instancia de Instinct MI300X cuenta con 192 GB de memoria HBM3 y proporciona un ancho de banda de memoria máximo de 5,3 TB/s. En comparación, la Nvidia H100 admite hasta 80 GB de memoria HMB3 con un ancho de banda de GPU de hasta 3,35 TB/s.

Los resultados coinciden en gran medida con las recientes afirmaciones de Intel de que sus chips Blackwell y Hopper ofrecen enormes ganancias de rendimiento frente a las soluciones de la competencia, incluido el AMD Instinct MI300X. Del mismo modo, Nvidia proporcionó datos que mostraban que en las pruebas LLama2, un sistema con ocho procesadores MI300X alcanzaba sólo 23.515 tokens por segundo a 750 vatios en modo offline. Por su parte, el H100 alcanzó los 24.525 tokens por segundo a 700 vatios. En el modo servidor, las cifras son similares: el MI300X alcanzó los 21.028 tokens por segundo, mientras que el H100 logró 21.606 tokes por segundo a menor potencia.

Rubén Castro

Redactor

Apasionado de explorar y diseccionar lo último en tecnología. Tengo mucha experiencia en el mundo de los ordenadores y el gaming, aunque también me gustan todos los tipos de gadgets.