GLM-5.1: il modello open-weight che lavora 8 ore da solo

GLM-5.1 è il modello open-weight da 754B di Z.AI: licenza MIT, 200K di contesto e fino a 8 ore di esecuzione autonoma su task di coding agentico.

C. Petrolillo Redazione
6 min di lettura
12 Aprile 2026
GLM-5.1 a confronto con GPT-5.4 e Claude Opus 4.6

Z.AI ha rilasciato GLM-5.1, modello open-weight da 754 miliardi di parametri pubblicato su HuggingFace con licenza MIT, costruito specificamente per il coding agentico e capace di lavorare in autonomia su un singolo task fino a 8 ore consecutive.

Il dato che conta non è il punteggio sui benchmark — è la durata. Per la prima volta un modello open-weight si misura con i frontier proprietari su un terreno che finora era considerato fuori portata: l'esecuzione sostenuta a lungo orizzonte, dove un agente deve pianificare, eseguire, leggere risultati, cambiare strategia e iterare per centinaia di round senza supervisione umana. Per chi costruisce sistemi agentici, la possibilità di self-hostare un modello con queste caratteristiche cambia il calcolo economico di interi prodotti.

Architettura: MoE, DSA e RL asincrono

GLM-5.1 combina un'architettura Mixture of Experts (MoE) — in cui solo una parte dei 754 miliardi di parametri si attiva a ogni passaggio — con DSA (un meccanismo che riduce i costi di training e inferenza mantenendo la fedeltà del contesto lungo). Per chi valuta il self-hosting, il design MoE significa che l'inferenza è significativamente più efficiente di un modello denso di dimensioni comparabili, anche se richiede infrastruttura di serving specifica come SGLang o vLLM.

Sul lato training, Z.AI ha implementato un'infrastruttura di reinforcement learning asincrono che disaccoppia generazione e addestramento. È questa scelta che spiega la capacità del modello di gestire interazioni lunghe e ambigue: il single-turn RL tradizionale fatica a produrre il tipo di giudizio sostenuto che serve agli agenti reali. Per il lettore meno familiare con questi termini, il nostro glossario AI raccoglie le definizioni operative.

Il modello opera con una finestra di contesto da 200K token e supporta fino a 128K token in output — entrambi parametri rilevanti per task che devono tenere in memoria intere codebase o catene di ragionamento estese.

Cosa dicono i benchmark

Sul benchmark di coding aggregato pubblicato da Z.AI — che combina SWE-Bench Pro, Terminal-Bench 2.0 e NL2Repo — GLM-5.1 raggiunge 54.9, terzo dietro GPT-5.4 (58.0) e Claude Opus 4.6 (57.5), davanti a Gemini 3.1 Pro e Qwen3.6-Plus (entrambi 52.0), MiniMax M2.7 (51.0) e Kimi K2.5 (45.5). Non è il primo posto, ma è la prima volta che un modello open-weight con licenza permissiva si colloca in quella fascia.

Benchmark creato con GLM-5.1:

Benchmark GLM-5.1 GLM-5 Qwen3.6-Plus Minimax M2.7 DeepSeek-V3.2 Kimi K2.5 Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
HLE 31.0 30.5 28.8 28.0 25.1 31.5 36.7 45.0 39.8
HLE (w/ Tools) 52.3 50.4 50.6 40.8 51.8 53.1* 51.4* 52.1*
AIME 2026 95.3 95.4 95.1 89.8 95.1 94.5 95.6 98.2 98.7
HMMT Nov. 2025 94.0 96.9 94.6 81.0 90.2 91.1 96.3 94.8 95.8
HMMT Feb. 2026 82.6 82.8 87.8 72.7 79.9 81.3 84.3 87.3 91.8
IMOAnswerBench 83.8 82.5 83.8 66.3 78.3 81.8 75.3 81.0 91.4
GPQA-Diamond 86.2 86.0 90.4 87.0 82.4 87.6 91.3 94.3 92.0
SWE-Bench Pro 58.4 55.1 56.6 56.2 53.8 57.3 54.2 57.7
NL2Repo 42.7 35.9 37.9 39.8 32.0 49.8 33.4 41.3
Terminal-Bench 2.0 (Terminus-2) 63.5 56.2 61.6 39.3 50.8 65.4 68.5
Terminal-Bench 2.0 (Best self-reported) 69.0(Claude Code) 56.2(Claude Code) 57.0(Claude Code) 46.4(Claude Code) 75.1(Codex)
CyberGym 68.7 48.3 17.3 41.3 66.6
BrowseComp 68.0 62.0 51.4 60.6
BrowseComp (w/ Context Manage) 79.3 75.9 67.6 74.9 84.0 85.9 82.7
τ³-Bench 70.6 69.2 70.7 67.6 69.2 66.0 72.4 67.1 72.9
MCP-Atlas (Public Set) 71.8 69.2 74.1 48.8 62.2 63.8 73.8 69.2 67.2
Tool-Decathlon 40.7 38.0 39.8 46.3 35.2 27.8 47.2 48.8 54.6
Vending Bench 2 $5,634.41 $4,432.12 $5,114.87 $1,034.00 $1,198.46 $8,017.59 $911.21 $6,144.18

Il profilo si conferma su altri benchmark: 95.3 su AIME 2026, 86.2 su GPQA-Diamond (ragionamento scientifico di livello dottorale), 70.6 su τ³-Bench e 71.8 su MCP-Atlas — quest'ultimo particolarmente rilevante data la diffusione crescente di MCP nei sistemi agentici in produzione. Su CyberGym il salto rispetto a GLM-5 è netto: da 48.3 a 68.7.

“Previous models tend to exhaust their repertoire early: they apply familiar techniques for quick initial gains, then plateau. The longer it runs, the better the result.” — Z.AI, model card di GLM-5.1

Otto ore di esecuzione autonoma: cosa cambia con GLM-5.1

Il limite strutturale dei modelli usati come agenti, fino a oggi, è il plateau: applicano il loro repertorio nei primi round, ottengono guadagni rapidi, poi si bloccano. Dare loro più tempo non aiuta. GLM-5.1 è progettato per evitare questo collasso, mantenendo l'allineamento con l'obiettivo nell'arco di centinaia di round e migliaia di chiamate a strumenti.

Z.AI documenta tre dimostrazioni concrete: la costruzione da zero di un ambiente desktop Linux completo in 8 ore, 178 round di iterazione autonoma su un task di vector database con prestazioni finali pari a 1.5× la versione iniziale, e l'ottimizzazione di un kernel CUDA con speedup portato da 2.6× a 35.7×. Quest'ultimo risultato è quello che dovrebbe interessare di più chi lavora su infrastruttura ML: una tuning di quel livello richiederebbe a un ingegnere umano qualificato giorni di lavoro mirato.

La capacità non deriva da una finestra di contesto più ampia, ma dalla riduzione della deriva strategica e dell'accumulo di errori — esattamente i due fallimenti che oggi rendono fragili gli agenti in produzione.

Cosa cambia per chi costruisce con l'AI

Per i team italiani che stanno valutando come costruire prodotti basati su agenti, l'arrivo di GLM-5.1 sposta una frontiera precisa: il livello di capacità che richiedeva un'API proprietaria a consumo ora è disponibile sotto licenza MIT, deployabile su infrastruttura propria con SGLang, vLLM o KTransformers. Per casi d'uso con vincoli di sovranità del dato — sanità, pubblica amministrazione, finanza — è la differenza tra un proof-of-concept rimandato e un sistema in produzione.

Il punto da osservare nei prossimi mesi non è se altri modelli open-weight raggiungeranno lo stesso punteggio sui benchmark, ma se riusciranno a replicare le 8 ore di esecuzione sostenuta. È lì che si misura la distanza reale tra una demo e un agente affidabile.

Fonti:

MARKTECHPOST.

GLM-5 Team et al. (2026) · arxiv.org/abs/2602.15763.
Autori: GLM-5-Team and Aohan Zeng and Xin Lv and others.

HuggingFace.