Majestic Labs ha presentato Prometheus, un server AI 128 TB che supera di oltre 60 volte la capacità di memoria del Nvidia DGX B300. La vera novità non è il numero in sé, è cosa rappresenta: il primo tentativo serio di ribaltare l'architettura dei server AI da compute-first a memory-first.
Per capire perché questa notizia conta, gli LLM non sono limitati dalla velocità di calcolo, ma dalla velocità con cui i dati possono essere letti dalla memoria. Come spiega un influente paper citato da IEEE Spectrum, la generazione di token è un compito “intrinsecamente memory-bound”. Tradotto: la GPU passa gran parte del tempo ad aspettare, non a lavorare.
Come funziona un server AI 128 TB
La memoria, spiega un'analisi su byteiota, è diventata il collo di bottiglia più grave perché la capacità di calcolo dei server cresce a un ritmo triennale tre volte superiore rispetto alla larghezza di banda della memoria. Più GPU si aggiungono, più si moltiplica il tempo sprecato in attesa, non si scala linearmente.
L'architettura di Prometheus aggira il problema alla radice. Ogni server AI 128 TB utilizza uno spazio di memoria unificato, condiviso e contiguo accessibile a piena larghezza di banda da tutti gli elementi di calcolo. I chip proprietari AIU (Ignite) sono progettati su architettura ARM con estensioni RISC-V vettoriali e tensoriali, e supportano PyTorch, vLLM e OpenAI Triton senza riscrivere il codice.
Confronto con l'architettura Nvidia
Il DGX B300 di Nvidia si ferma a circa 2 TB di memoria per server. Per raggiungere 128 TB servirebbero 64 server in cluster, con tutto il sovraccarico di comunicazione e sincronizzazione che ne deriva. Prometheus mette tutto in uno chassis unico, eliminando le latenze di rete tra nodi. Il vantaggio non è solo teorico: nei modelli di inferenza a lunga sequenza (oltre 100k token), la frammentazione tra più GPU diventa il collo di bottiglia principale. Un singolo spazio di indirizzamento elimina completamente il problema.
Il limite che nessuno menziona
La domanda che i comunicati ufficiali non si pongono è semplice: se Prometheus è così rivoluzionario, perché esce solo nel 2027?
La risposta ha tre componenti. Primo: Majestic Labs non ha ancora rivelato che tipo di RAM utilizza ma si parla di HBM o di DRAM di nuova generazione, ma il silenzio tecnico è intenzionale. Secondo: l'infrastruttura software per sfruttare 128 TB di memoria contigua non esiste ancora su larga scala, e l'adozione dipenderà da quanto velocemente l'ecosistema PyTorch/Triton si adatterà. Terzo: il server è stato presentato in uno stadio ancora pre-produttivo, con campioni ingegneristici previsti per fine 2026 e volumi per il 2027.
Perché conta per chi sviluppa AI in Italia
Chi segue il settore da vicino sa che l'80% dei costi operativi di un modello AI non è nell'addestramento, ma nell'inferenza , e che l'inferenza è dove il memory wall colpisce più duramente. Un singolo server che sostituisce interi rack significa:
- Costo per token potenzialmente ridotto di un ordine di grandezza.
- Modelli da 10 trilioni di parametri eseguibili senza doverli frammentare su decine di nodi.
- Fine dell'over-provisioning di calcolo solo per accedere a più memoria.
Per i professionisti italiani che oggi noleggiano cluster su cloud esteri per fare inferenza su modelli di medie dimensioni, Prometheus se manterrà le promesse potrebbe rendere economicamente sostenibile eseguire modelli di prossima generazione su infrastruttura più compatta e meno dispersiva. Il vantaggio non è solo tecnico: è economico
Fonti citate:
- This Server Has 128 TB of RAM 60x More Than Nvidia's DGX B300 , IEEE Spectrum, 29 maggio 2026.
- Majestic Labs Unveils Prometheus: The World's Highest Memory AI Server , BusinessWire, 28 maggio 2026.
