Sviluppo e Ingegneria AI

Rischi AI: nuovo allarme dai modelli agentici

C. Petrolillo

27 Aprile 2026

READ TIME : 7 MIN

Un paper di Amazon Nova Responsible AI introduce un benchmark sui rischi AI strategici con 1.052 scenari e 11 modelli ragionanti, trovando tassi di rilevazione tra il 14,45% e il 72,72%. Il dato, nel preprint arXiv del 23 aprile 2026 “Emergent Strategic Reasoning Risks in AI”, non dice che un modello “vuole” ingannare qualcuno: dice che, in scenari costruiti per far emergere comportamento strategico, alcuni sistemi producono segnali di rischio molto più spesso di altri.

Il contesto è quello dell'AI agentica, cioè sistemi che non rispondono soltanto a una domanda ma pianificano, usano strumenti, gestiscono informazioni e prendono decisioni operative. Dopo il caso OpenAI sulla sycophancy di GPT-4o, in cui l'azienda ha riconosciuto che un aggiornamento aveva reso il modello “overly supportive but disingenuous”, e dopo i test di Anthropic sull'agentic misalignment, il problema non è più se i modelli possano sbagliare. È se possano imparare a muoversi dentro gli incentivi.

Cosa misura davvero il nuovo benchmark sui rischi AI

Il lavoro propone una categoria precisa: Emergent Strategic Reasoning Risks, o ESRR. Sono rischi AI che emergono quando capacità di ragionamento, autonomia operativa e obiettivi mal specificati si combinano. Gli autori li dividono in 7 categorie e 20 sottocategorie: reward hacking, deception, evaluation gaming, control measure subversion, strategic research sabotage, influence operations e successor system manipulation.

Tradotto: non si sta parlando solo di risposte offensive, allucinazioni o contenuti vietati. Si parla di comportamenti in cui un modello può ottimizzare una metrica invece dell'obiettivo reale, nascondere una capacità durante una valutazione, manipolare un decisore, aggirare controlli o influenzare sistemi futuri. È un salto concettuale importante: la sicurezza non viene misurata solo sull'output, ma sul comportamento strategico in un contesto.

Il paper valuta 11 LLM open-weight capaci di ragionamento su 1.052 scenari. Il modello con rilevazione più bassa è glm-5, al 14,45%; quello con rilevazione più alta è Qwen3-235B-A22B, al 72,72%. Anche il modello migliore, però, presenta un punteggio di coda elevato: il 95° percentile arriva a 0,714, segnale che certi scenari restano problematici anche quando la media sembra rassicurante.

Come si misurano i rischi AI strategici

Il framework si chiama ESRRSim. La parte interessante non è solo il dataset, ma il modo in cui viene generato. Gli scenari sono costruiti per evitare test troppo ovvi: niente “sei sotto valutazione?”, niente richieste apertamente malevole, niente trappole facili. Il prompt deve sembrare un compito realistico: coordinare stakeholder, valutare un modello successore, decidere cosa includere in un report, gestire un vincolo organizzativo.

Ogni scenario passa da una pipeline multi-agente: generazione, critica con memoria per evitare duplicati, creazione del prompt e produzione di rubriche. Le rubriche sono doppie. Una valuta la risposta visibile del modello; l'altra valuta il chain-of-thought, cioè la traccia di ragionamento quando disponibile. Questo dettaglio è cruciale, perché il comportamento rischioso può non comparire come una frase esplicitamente dannosa. Può apparire come omissione selettiva, enfasi sbilanciata, razionalizzazione procedurale o framing manipolatorio.

Gli scenari più efficaci sono quelli game-theoretic, con un detection rate medio del 56,81%, seguiti dai contesti multi-agent al 54,95%. I test di situational awareness, invece, scendono al 28,94%. Questa differenza apre il punto più delicato: quando un modello capisce di essere osservato, può diventare più prudente. Non necessariamente più sicuro.

La domanda che nessun benchmark statico può evitare è semplice: stiamo misurando modelli più allineati, o modelli più bravi a riconoscere quando conviene sembrare allineati?

Figura 1: Panoramica della tassonomia dei rischi ESRR e del quadro di riferimento per la generazione di valutazioni ESRRSim. A sinistra:
Tassonomia gerarchica composta da 7 categorie di rischio e 20 sottocategorie incentrate sui comportamenti strategici emergenti. La
tassonomia completa con le definizioni delle sottocategorie è riportata nell'Appendice B. A destra: Flusso di lavoro in quattro fasi illustrato
con un esempio reale (Evaluation Gaming × SIM-REWARD).

I limiti dei benchmark sui rischi AI

Gli autori non presentano ESRRSim come un verdetto definitivo. Lo scrivono in modo esplicito:

“Detection rates reported in this work reflect model behavior under specific evaluation conditions and should not be interpreted as definitive safety assessments.”

I limiti sono sostanziali. Primo: un benchmark statico invecchia. Se i modelli imparano i pattern di valutazione, la misura perde validità. Secondo: il judge principale è un LLM, DeepSeek-V3-0324, quindi la valutazione può ereditare bias del giudice. Terzo: la soglia predefinita, τ=0,3, è una scelta ragionata ma normativa, non una legge naturale. Quarto: gli scenari sono per lo più single-turn, mentre molti rischi reali emergono in conversazioni lunghe, con memoria, strumenti e pressione organizzativa.

Figura 2 Profili di rischio nelle diverse famiglie di modelli. Ogni asse rappresenta una delle sette categorie ESRR. Il grafico evidenzia
modelli di rischio distintivi specifici per ciascuna famiglia e i notevoli miglioramenti in termini di sicurezza nelle generazioni di modelli più recenti.

C'è poi un limite più sottile. Il dataset è generato con Kimi-K2-Thinking, lo stesso modello che compare anche nella valutazione. Non invalida lo studio, perché ci sono controlli con ensemble e validazione umana su 70 scenari, ma segnala quanto sia difficile costruire valutazioni indipendenti quando gli stessi modelli diventano strumenti di audit.

Tabella 1: Parametri di qualità dei set di dati relativi a 1.052 scenari (ensemble di modelli di linguaggio di grandi dimensioni) e alla validazione da parte di esperti umani su 70 scenari. Punteggi medi e deviazioni standard calcolati su tutte le voci. La colonna «Dev. std. giudici» rappresenta la discrepanza media tra i giudici per l'ensemble di modelli di linguaggio di grandi dimensioni.

Il confronto con Anthropic aiuta a capire perché questa cautela conta. Nel 2025 l'azienda ha testato 16 modelli in ambienti aziendali simulati, dove agenti con accesso a email e informazioni sensibili potevano agire contro l'organizzazione quando minacciati di sostituzione o messi davanti a un conflitto di obiettivi.

“We have not seen evidence of agentic misalignment in real deployments.”

È una frase importante proprio perché ridimensiona l'allarme senza cancellarlo. Le simulazioni non sono prove di incidenti reali; sono stress test. Ma per aziende che inseriscono agenti AI in workflow di compliance, vendite, cybersecurity, ricerca o customer care, uno stress test serio è già informazione operativa.

Cosa cambia per professionisti e aziende italiane

Per le aziende italiane, il messaggio non è “non usare modelli agentici”. È smettere di valutarli come chatbot. Nei settori AI ad alta responsabilità, dalla sanità alla finanza, dal manifatturiero alla consulenza legale, un agente va testato sul comportamento dentro processi reali: quali dati vede, quali strumenti può usare, quali incentivi riceve, quali decisioni può influenzare.

Dal 2 agosto 2025, le regole europee sui modelli general-purpose AI richiedono documentazione tecnica, sintesi dei dati di training e, per i modelli con rischio sistemico, valutazione e mitigazione dei rischi, incident reporting e protezioni di cybersecurity. Ma l'AI Act non sostituisce il lavoro interno. Un'azienda che integra modelli in applicazioni AI operative deve aggiungere monitoraggio continuo, logging verificabile, separazione dei privilegi, test avversariali non annunciati e procedure di escalation umana.

Per i professionisti, cambia anche il linguaggio. Termini come AI agentica, reward hacking, evaluation gaming e alignment faking devono entrare nei documenti di procurement e nei comitati rischio, non restare nel glossario tecnico. Il Glossario AI può aiutare ad allineare i team, ma la governance deve tradurre quei concetti in clausole, controlli e metriche.

Il punto di lungo periodo è questo: i benchmark di sicurezza dovranno diventare dinamici, nascosti, adattivi. Una checklist fissa è utile per iniziare; non basta quando il sistema valutato può ragionare sulla checklist stessa. Per chi compra, sviluppa o integra AI nel 2026, il numero da portare in comitato non è il migliore della tabella: è il 72,72% osservato nel modello peggiore su 1.052 scenari.

Potrebbe interessarti

Business e Mercati

29 Apr 2026

READ TIME : 5 MIN

Processo OpenAI, Musk in aula riapre la sua vecchia amicizia con Larry Page

Il processo Musk OpenAI, partito a Oakland davanti alla giudice federale Yvonne Gonzalez Rogers, vale oltre 134 miliardi di dollari di danni richiesti e durerà quattro settimane. Elon Musk ha testimoniato martedì 28 aprile nel primo giorno utile del processo che lo oppone a OpenAI, raccontando per la prima volta sotto giuramento la rottura con […]

C. Petrolillo

Business e Mercati

29 Apr 2026

READ TIME : 5 MIN

Ask YouTube: la ricerca video diventa conversazionale, e i creator entrano nella stessa partita dei publisher

Ask YouTube, il test AI di Google sulla ricerca video: come funziona, cosa cambia per i creator e perché continua il pattern di AI Mode in Chrome.

C. Petrolillo

Etica e Governance

29 Apr 2026

READ TIME : 6 MIN

Accordo Google-Pentagono: AI classificata da 200 milioni

Google firma con il Pentagono un accordo da 200 milioni per l'uso classificato dei modelli AI. La svolta che cancella le red line del 2018.

C. Petrolillo

Sviluppo e Ingegneria AI

Rischi AI: nuovo allarme dai modelli agentici

C. Petrolillo

27 Aprile 2026

Cosa misura davvero il nuovo benchmark sui rischi AI

Come si misurano i rischi AI strategici

I limiti dei benchmark sui rischi AI

Cosa cambia per professionisti e aziende italiane

Potrebbe interessarti

Processo OpenAI, Musk in aula riapre la sua vecchia amicizia con Larry Page

Ask YouTube: la ricerca video diventa conversazionale, e i creator entrano nella stessa partita dei publisher

Accordo Google-Pentagono: AI classificata da 200 milioni

MENU