AI Generativa

GPT-5.5: il modello OpenAI che cambia il lavoro AI

C. Petrolillo

24 Aprile 2026

READ TIME : 7 MIN

GPT-5.5 raggiunge l'85% su ARC-AGI-2 e supera GPT-5.4 su tutti i benchmark agentic: OpenAI ha rilasciato il 22 aprile 2026 il suo modello più capace, con prestazioni da stato dell'arte nel coding autonomo e nella ricerca scientifica assistita.

Il salto non riguarda solo l'accuratezza. GPT-5.5 ottiene questi risultati mantenendo la stessa latenza per token di GPT-5.4 e usando meno token per completare le stesse operazioni — un'efficienza che, in produzione, si traduce in costi operativi più bassi nonostante il prezzo unitario più alto.

GPT-5.5 e il coding agentivo: i numeri che contano

Su Terminal-Bench 2.0, il benchmark che misura workflow complessi da riga di comando con pianificazione e coordinamento di strumenti, GPT-5.5 raggiunge l'82,7% contro il 75,1% di GPT-5.4 e il 69,4% di Claude Opus 4.7. Su SWE-Bench Pro, che valuta la risoluzione reale di issue GitHub end-to-end, il modello sale al 58,6%. Su Expert-SWE — valutazione interna OpenAI su task con tempo medio stimato di completamento umano di 20 ore — GPT-5.5 supera GPT-5.4 usando, anche qui, meno token.

Confronto con i valori di riferimento

Punteggi di prestazione dei principali modelli di IA, Performance su test di ragionamento astratto e logica visiva (valore più alto in grassetto)

Benchmark	GPT-5.5	GPT-5.4	GPT-5.5 Pro	GPT-5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	–	–	69.4%	68.5%
Expert-SWE (Internal)	73.1%	68.5%	–	–	–	–
GDPval (wins or ties)	84.9%	83.0%	82.3%	82.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	–	–	78.0%	–
Toolathlon	55.6%	54.6%	–	–	–	48.8%
BrowseComp	84.4%	82.7%	90.1%	89.3%	79.3%	85.9%
FrontierMath Tier 1–3	51.7%	47.6%	52.4%	50.0%	43.8%	36.9%
FrontierMath Tier 4	35.4%	27.1%	39.6%	38.0%	22.9%	16.7%
CyberGym	81.8%	79.0%	–	–	73.1%	–

Il miglioramento non è solo quantitativo. I tester early access descrivono una capacità nuova di tenere il contesto su sistemi grandi, ragionare su failure ambigue e propagare modifiche nel codebase circostante senza essere guidati passo a passo.

“GPT-5.5 è notevolmente più intelligente e persistente di GPT-5.4, con prestazioni di coding più forti e un uso degli strumenti più affidabile. Rimane sul compito per molto più tempo senza fermarsi in anticipo — ed è questo che conta di più per il lavoro complesso e di lunga durata che i nostri utenti delegano a Cursor.” — Michael Truell, Co-founder & CEO di Cursor

La domanda che i comunicati ufficiali non si pongono è questa: quanto di questo miglioramento è generalizzabile, e quanto dipende da valutazioni che OpenAI ha progettato e misurato internamente?

Ragionamento scientifico e contesto lungo

Chi segue il settore da vicino sa che le affermazioni su capacità “scientifiche” dei modelli vanno lette con cautela — ma i benchmark indipendenti qui reggono. Su ARC-AGI-2, che misura il ragionamento astratto verificato, GPT-5.5 raggiunge l'85,0% contro il 73,3% di GPT-5.4 e il 75,8% di Claude Opus 4.7. Su FrontierMath Tier 4, il livello più difficile del benchmark matematico, passa dal 27,1% al 35,4%.

“GeneBench”

“BixBench”

“ARC-AGI Benchmarks”

ARC-AGI Benchmarks

Performance su test di ragionamento astratto e logica visiva (valore più alto in grassetto)

Evaluation	GPT-5.5	GPT-5.4	GPT-5.5 Pro	GPT-5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
ARC-AGI-1 (Verified)	95.0%	93.7%	–	94.5%	93.5%	98.0%
ARC-AGI-2 (Verified)	85.0%	73.3%	–	83.3%	75.8%	77.1%

Sul fronte del contesto lungo, il miglioramento è marcato: su Graphwalks BFS a 1 milione di token, GPT-5.5 passa dal 9,4% al 45,4% — un salto che apre scenari concreti per l'analisi di codebase interi o dataset scientifici estesi in un'unica sessione.

Benchmark su navigazione grafi e memoria contesto lungo (miglior punteggio evidenziato)

Evaluation	GPT-5.5	GPT-5.4	GPT-5.5 Pro	GPT-5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Graphwalks BFS 256k f1	73.7%	62.5%	–	–	76.9%	–
Graphwalks BFS 1mil f1	45.4%	9.4%	–	–	41.2% (Opus 4.6)	–
Graphwalks parents 256k f1	90.1%	82.8%	–	–	93.6%	–
Graphwalks parents 1mil f1	58.5%	44.4%	–	–	72.0% (Opus 4.6)	–
OpenAI MRCR v2 8-needle 4K-8K	98.1%	97.3%	–	–	–	–
OpenAI MRCR v2 8-needle 8K-16K	93.0%	91.4%	–	–	–	–
OpenAI MRCR v2 8-needle 16K-32K	96.5%	97.2%	–	–	–	–
OpenAI MRCR v2 8-needle 32K-64K	90.0%	90.5%	–	–	–	–
OpenAI MRCR v2 8-needle 64K-128K	83.1%	86.0%	–	–	–	–
OpenAI MRCR v2 8-needle 128K-256K	87.5%	79.3%	–	–	59.2%	–
OpenAI MRCR v2 8-needle 256K-512K	81.5%	57.5%	–	–	–	–
OpenAI MRCR v2 8-needle 512K-1M	74.0%	36.6%	–	–	32.2%	–

Efficienza e infrastruttura

GPT-5.5 è stato co-progettato per girare su sistemi NVIDIA GB200 e GB300 NVL72. Il team OpenAI ha usato Codex stesso per analizzare settimane di traffico di produzione e riscrivere gli algoritmi di load balancing e partitioning — un intervento che ha aumentato la velocità di generazione dei token del 20%. Il modello ha contribuito a ottimizzare l'infrastruttura che lo serve.

Sicurezza e accesso

OpenAI classifica le capacità di cybersecurity di GPT-5.5 come High nel suo Preparedness Framework — non Critical, ma un gradino sopra GPT-5.4. Su CyberGym, il modello raggiunge l'81,8% contro il 73,1% di Claude Opus 4.7. In risposta, OpenAI ha introdotto classificatori più stringenti per richieste ad alto rischio cyber e ha attivato un programma Trusted Access for Cyber per chi lavora in ambito difensivo verificato.

Perché conta per chi usa AI nel lavoro

Il dato più concreto viene dall'interno: oltre l'85% dei dipendenti OpenAI usa Codex ogni settimana, in funzioni che vanno dall'ingegneria software alla finanza, dalle comunicazioni al marketing. Il team Finance ha usato il modello per processare 24.771 moduli K-1 (71.637 pagine totali) accelerando il lavoro di due settimane rispetto all'anno precedente. Un singolo dipendente del team Go-to-Market ha automatizzato i report settimanali, risparmiando 5-10 ore a settimana.

Per i professionisti italiani che già usano modelli AI in workflow strutturati, il cambiamento rilevante è uno solo: GPT-5.5 non richiede di gestire ogni step. È progettato per ricevere task multi-parte incompleti, pianificare autonomamente, usare strumenti, verificare i propri output e continuare. Meno supervisione per task che oggi richiedono ancora attenzione costante.

Per gli sviluppatori che accedono via API, il modello sarà disponibile a breve a $5 per milione di token in input e $30 in output, con finestra di contesto da 1 milione di token. La versione Pro arriva a $30/$180 per un livello di accuratezza superiore.

Per maggiori fonti o dettagli sui benchmarks potete guardarli direttamente su: OpenAI, Introducing GPT‑5.5.

Potrebbe interessarti

Sicurezza

28 Apr 2026

READ TIME : 5 MIN

OpenAI FedRAMP: svolta sicura per la PA

OpenAI FedRAMP porta ChatGPT Enterprise e API nelle agenzie USA con autorizzazione Moderate: cosa cambia per sicurezza, dati pubblici e adozione dell'AI.

C. Petrolillo

Business e Mercati

28 Apr 2026

READ TIME : 6 MIN

Microsoft OpenAI esclusiva: addio AGI, cloud aperto

Microsoft OpenAI esclusiva finita il 27 aprile 2026: licenza non esclusiva fino al 2032, cloud aperto ad AWS e Google. Cosa cambia per le aziende italiane.

C. Petrolillo

Sviluppo e Ingegneria AI

28 Apr 2026

READ TIME : 5 MIN

Reinforcement learning, la sfida da 1,1 miliardi

Reinforcement learning al centro del round da 1,1 miliardi di Ineffable: David Silver sfida gli LLM con AI che impara dall'esperienza. Perché conta ora?

C. Petrolillo

AI Generativa

GPT-5.5: il modello OpenAI che cambia il lavoro AI

C. Petrolillo

24 Aprile 2026

GPT-5.5 e il coding agentivo: i numeri che contano

Confronto con i valori di riferimento

Ragionamento scientifico e contesto lungo

ARC-AGI Benchmarks

Efficienza e infrastruttura

Sicurezza e accesso

Perché conta per chi usa AI nel lavoro

Potrebbe interessarti

OpenAI FedRAMP: svolta sicura per la PA

Microsoft OpenAI esclusiva: addio AGI, cloud aperto

Reinforcement learning, la sfida da 1,1 miliardi

MENU