AI Generativa

GPT-5.5: il modello OpenAI che cambia il lavoro AI

GPT-5.5 di OpenAI: grafico dei benchmark su coding agentivo, ragionamento e contesto lungo

GPT-5.5 raggiunge l'85% su ARC-AGI-2 e supera GPT-5.4 su tutti i benchmark agentic: OpenAI ha rilasciato il 22 aprile 2026 il suo modello più capace, con prestazioni da stato dell'arte nel coding autonomo e nella ricerca scientifica assistita.

Il salto non riguarda solo l'accuratezza. GPT-5.5 ottiene questi risultati mantenendo la stessa latenza per token di GPT-5.4 e usando meno token per completare le stesse operazioni — un'efficienza che, in produzione, si traduce in costi operativi più bassi nonostante il prezzo unitario più alto.


GPT-5.5 e il coding agentivo: i numeri che contano

Su Terminal-Bench 2.0, il benchmark che misura workflow complessi da riga di comando con pianificazione e coordinamento di strumenti, GPT-5.5 raggiunge l'82,7% contro il 75,1% di GPT-5.4 e il 69,4% di Claude Opus 4.7. Su SWE-Bench Pro, che valuta la risoluzione reale di issue GitHub end-to-end, il modello sale al 58,6%. Su Expert-SWE — valutazione interna OpenAI su task con tempo medio stimato di completamento umano di 20 ore — GPT-5.5 supera GPT-5.4 usando, anche qui, meno token.


Confronto con i valori di riferimento

Punteggi di prestazione dei principali modelli di IA, Performance su test di ragionamento astratto e logica visiva (valore più alto in grassetto)

Benchmark GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
Terminal-Bench 2.0 82.7% 75.1% 69.4% 68.5%
Expert-SWE (Internal) 73.1% 68.5%
GDPval (wins or ties) 84.9% 83.0% 82.3% 82.0% 80.3% 67.3%
OSWorld-Verified 78.7% 75.0% 78.0%
Toolathlon 55.6% 54.6% 48.8%
BrowseComp 84.4% 82.7% 90.1% 89.3% 79.3% 85.9%
FrontierMath Tier 1–3 51.7% 47.6% 52.4% 50.0% 43.8% 36.9%
FrontierMath Tier 4 35.4% 27.1% 39.6% 38.0% 22.9% 16.7%
CyberGym 81.8% 79.0% 73.1%

Il miglioramento non è solo quantitativo. I tester early access descrivono una capacità nuova di tenere il contesto su sistemi grandi, ragionare su failure ambigue e propagare modifiche nel codebase circostante senza essere guidati passo a passo.

“GPT-5.5 è notevolmente più intelligente e persistente di GPT-5.4, con prestazioni di coding più forti e un uso degli strumenti più affidabile. Rimane sul compito per molto più tempo senza fermarsi in anticipo — ed è questo che conta di più per il lavoro complesso e di lunga durata che i nostri utenti delegano a Cursor.” — Michael Truell, Co-founder & CEO di Cursor

La domanda che i comunicati ufficiali non si pongono è questa: quanto di questo miglioramento è generalizzabile, e quanto dipende da valutazioni che OpenAI ha progettato e misurato internamente?


Ragionamento scientifico e contesto lungo

Chi segue il settore da vicino sa che le affermazioni su capacità “scientifiche” dei modelli vanno lette con cautela — ma i benchmark indipendenti qui reggono. Su ARC-AGI-2, che misura il ragionamento astratto verificato, GPT-5.5 raggiunge l'85,0% contro il 73,3% di GPT-5.4 e il 75,8% di Claude Opus 4.7. Su FrontierMath Tier 4, il livello più difficile del benchmark matematico, passa dal 27,1% al 35,4%.


“GeneBench”

GPT-5.5 di OpenAI: grafico dei benchmark su coding agentivo, ragionamento e contesto lungo

“BixBench”

GPT-5.5 di OpenAI: grafico dei benchmark su coding agentivo, ragionamento e contesto lungo

“ARC-AGI Benchmarks”

ARC-AGI Benchmarks

Performance su test di ragionamento astratto e logica visiva (valore più alto in grassetto)

Evaluation GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
ARC-AGI-1 (Verified) 95.0% 93.7% 94.5% 93.5% 98.0%
ARC-AGI-2 (Verified) 85.0% 73.3% 83.3% 75.8% 77.1%

Sul fronte del contesto lungo, il miglioramento è marcato: su Graphwalks BFS a 1 milione di token, GPT-5.5 passa dal 9,4% al 45,4% — un salto che apre scenari concreti per l'analisi di codebase interi o dataset scientifici estesi in un'unica sessione.


Benchmark su navigazione grafi e memoria contesto lungo (miglior punteggio evidenziato)

Evaluation GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
Graphwalks BFS 256k f1 73.7% 62.5% 76.9%
Graphwalks BFS 1mil f1 45.4% 9.4% 41.2% (Opus 4.6)
Graphwalks parents 256k f1 90.1% 82.8% 93.6%
Graphwalks parents 1mil f1 58.5% 44.4% 72.0% (Opus 4.6)
OpenAI MRCR v2 8-needle 4K-8K 98.1% 97.3%
OpenAI MRCR v2 8-needle 8K-16K 93.0% 91.4%
OpenAI MRCR v2 8-needle 16K-32K 96.5% 97.2%
OpenAI MRCR v2 8-needle 32K-64K 90.0% 90.5%
OpenAI MRCR v2 8-needle 64K-128K 83.1% 86.0%
OpenAI MRCR v2 8-needle 128K-256K 87.5% 79.3% 59.2%
OpenAI MRCR v2 8-needle 256K-512K 81.5% 57.5%
OpenAI MRCR v2 8-needle 512K-1M 74.0% 36.6% 32.2%

Efficienza e infrastruttura

GPT-5.5 è stato co-progettato per girare su sistemi GB200 e GB300 NVL72. Il team OpenAI ha usato Codex stesso per analizzare settimane di traffico di produzione e riscrivere gli algoritmi di load balancing e partitioning — un intervento che ha aumentato la velocità di generazione dei token del 20%. Il modello ha contribuito a ottimizzare l'infrastruttura che lo serve.


Sicurezza e accesso

OpenAI classifica le capacità di cybersecurity di GPT-5.5 come High nel suo Preparedness Framework — non Critical, ma un gradino sopra GPT-5.4. Su CyberGym, il modello raggiunge l'81,8% contro il 73,1% di Claude Opus 4.7. In risposta, OpenAI ha introdotto classificatori più stringenti per richieste ad alto rischio cyber e ha attivato un programma Trusted Access for Cyber per chi lavora in ambito difensivo verificato.


GPT-5.5 di OpenAI: grafico dei benchmark su coding agentivo, ragionamento e contesto lungo

Perché conta per chi usa AI nel lavoro

Il dato più concreto viene dall'interno: oltre l'85% dei dipendenti OpenAI usa Codex ogni settimana, in funzioni che vanno dall'ingegneria software alla finanza, dalle comunicazioni al marketing. Il team Finance ha usato il modello per processare 24.771 moduli K-1 (71.637 pagine totali) accelerando il lavoro di due settimane rispetto all'anno precedente. Un singolo dipendente del team Go-to-Market ha automatizzato i report settimanali, risparmiando 5-10 ore a settimana.

Per i professionisti italiani che già usano modelli AI in workflow strutturati, il cambiamento rilevante è uno solo: GPT-5.5 non richiede di gestire ogni step. È progettato per ricevere task multi-parte incompleti, pianificare autonomamente, usare strumenti, verificare i propri output e continuare. Meno supervisione per task che oggi richiedono ancora attenzione costante.

Per gli sviluppatori che accedono via API, il modello sarà disponibile a breve a $5 per milione di token in input e $30 in output, con finestra di contesto da 1 milione di token. La versione Pro arriva a $30/$180 per un livello di accuratezza superiore.

Per maggiori fonti o dettagli sui benchmarks potete guardarli direttamente su: OpenAI, Introducing GPT‑5.5.

Potrebbe interessarti

Sicurezza

28 Apr 2026

READ TIME : 5 MIN

OpenAI FedRAMP: svolta sicura per la PA

OpenAI FedRAMP porta ChatGPT Enterprise e API nelle agenzie USA con autorizzazione Moderate: cosa cambia per sicurezza, dati pubblici e adozione dell'AI.

C. Petrolillo

Business e Mercati

28 Apr 2026

READ TIME : 6 MIN

Microsoft OpenAI esclusiva: addio AGI, cloud aperto

Microsoft OpenAI esclusiva finita il 27 aprile 2026: licenza non esclusiva fino al 2032, cloud aperto ad AWS e Google. Cosa cambia per le aziende italiane.

C. Petrolillo

Sviluppo e Ingegneria AI

28 Apr 2026

READ TIME : 5 MIN

Reinforcement learning, la sfida da 1,1 miliardi

Reinforcement learning al centro del round da 1,1 miliardi di Ineffable: David Silver sfida gli LLM con AI che impara dall'esperienza. Perché conta ora?

C. Petrolillo