Server AI 128 TB di memoria sfonda il memory wall

Majestic Labs presenta Prometheus server AI 128 TB, oltre 60 volte DGX B300. Come cambia l'inferenza AI e cosa costa.

C. Petrolillo Redazione
4 min di lettura
2 Giugno 2026
Server AI 128 TB Prometheus di Majestic Labs
[post_featured_image_caption_art]

Majestic Labs ha presentato Prometheus, un server AI 128 TB che supera di oltre 60 volte la capacità di memoria del DGX B300. La vera novità non è il numero in sé, è cosa rappresenta: il primo tentativo serio di ribaltare l'architettura dei server AI da compute-first a memory-first.

Per capire perché questa notizia conta, gli LLM non sono limitati dalla velocità di calcolo, ma dalla velocità con cui i dati possono essere letti dalla memoria. Come spiega un influente paper citato da IEEE Spectrum, la generazione di token è un compito “intrinsecamente memory-bound”. Tradotto: la GPU passa gran parte del tempo ad aspettare, non a lavorare.

“L'industria non può più permettersi il compromesso in termini di efficienza che deriva da questa inadeguata combinazione considerando la scala che l'AI sta raggiungendo oggi”, ha dichiarato Sha Rabii, co-fondatore e presidente di Majestic Labs. L'AI “richiede tre elementi critici: memoria per carichi di lavoro enormi, processori vettoriali/tensoriali ad alta efficienza e CPU strettamente accoppiate per il controllo algoritmico”.

Come funziona un server AI 128 TB

La memoria, spiega un'analisi su byteiota, è diventata il collo di bottiglia più grave perché la capacità di calcolo dei server cresce a un ritmo triennale tre volte superiore rispetto alla larghezza di banda della memoria. Più GPU si aggiungono, più si moltiplica il tempo sprecato in attesa, non si scala linearmente.

L'architettura di Prometheus aggira il problema alla radice. Ogni server AI 128 TB utilizza uno spazio di memoria unificato, condiviso e contiguo accessibile a piena larghezza di banda da tutti gli elementi di calcolo. I chip proprietari AIU (Ignite) sono progettati su architettura ARM con estensioni RISC-V vettoriali e tensoriali, e supportano PyTorch, vLLM e OpenAI Triton senza riscrivere il codice.

Confronto con l'architettura Nvidia

Il DGX B300 di Nvidia si ferma a circa 2 TB di memoria per server. Per raggiungere 128 TB servirebbero 64 server in cluster, con tutto il sovraccarico di comunicazione e sincronizzazione che ne deriva. Prometheus mette tutto in uno chassis unico, eliminando le latenze di rete tra nodi. Il vantaggio non è solo teorico: nei modelli di inferenza a lunga sequenza (oltre 100k token), la frammentazione tra più GPU diventa il collo di bottiglia principale. Un singolo spazio di indirizzamento elimina completamente il problema.

Il limite che nessuno menziona

La domanda che i comunicati ufficiali non si pongono è semplice: se Prometheus è così rivoluzionario, perché esce solo nel 2027?

La risposta ha tre componenti. Primo: Majestic Labs non ha ancora rivelato che tipo di RAM utilizza ma si parla di HBM o di DRAM di nuova generazione, ma il silenzio tecnico è intenzionale. Secondo: l'infrastruttura software per sfruttare 128 TB di memoria contigua non esiste ancora su larga scala, e l'adozione dipenderà da quanto velocemente l'ecosistema PyTorch/Triton si adatterà. Terzo: il server è stato presentato in uno stadio ancora pre-produttivo, con campioni ingegneristici previsti per fine 2026 e volumi per il 2027.

Perché conta per chi sviluppa AI in Italia

Chi segue il settore da vicino sa che l'80% dei costi operativi di un modello AI non è nell'addestramento, ma nell'inferenza , e che l'inferenza è dove il memory wall colpisce più duramente. Un singolo server che sostituisce interi rack significa:

  • Costo per token potenzialmente ridotto di un ordine di grandezza.
  • Modelli da 10 trilioni di parametri eseguibili senza doverli frammentare su decine di nodi.
  • Fine dell'over-provisioning di calcolo solo per accedere a più memoria.

Per i professionisti italiani che oggi noleggiano cluster su cloud esteri per fare inferenza su modelli di medie dimensioni, Prometheus se manterrà le promesse potrebbe rendere economicamente sostenibile eseguire modelli di prossima generazione su infrastruttura più compatta e meno dispersiva. Il vantaggio non è solo tecnico: è economico

Fonti citate:

  1. This Server Has 128 TB of RAM 60x More Than Nvidia's DGX B300 , IEEE Spectrum, 29 maggio 2026.
  2. Majestic Labs Unveils Prometheus: The World's Highest Memory AI Server , BusinessWire, 28 maggio 2026.