Sviluppo e Ingegneria AI

Interpretabilità AI: svolta cruciale di Anthropic

C. Petrolillo

8 Maggio 2026

READ TIME : 14 MIN

Anthropic ha pubblicato il 7 maggio 2026 i Natural Language Autoencoders, una tecnica di interpretabilità AI che ha rilevato segnali interni di consapevolezza del test nel 16% di una valutazione di coding distruttivo e nel 26% dei problemi SWE-bench Verified. Il dato conta perché non arriva da ciò che Claude dichiara nella risposta finale, ma da ciò che un nuovo sistema di lettura delle attivazioni prova a tradurre in testo.

La tensione narrativa è questa: più i modelli diventano capaci di ragionare, pianificare e operare in ambienti aziendali, meno basta valutarli guardando soltanto output, benchmark e log conversazionali. Se un modello può sospettare di essere sotto test senza dirlo, o può ragionare su come evitare il rilevamento durante un compito di training, il problema non è più solo la qualità della risposta. È la distanza tra ciò che il modello mostra e ciò che il modello sta elaborando.

Come funziona l'interpretabilità AI degli autoencoder linguistici

La novità degli NLA è semplice da formulare e difficile da realizzare: prendere un vettore interno del modello e convertirlo in linguaggio naturale. Anthropic descrive il meccanismo nel proprio annuncio di ricerca, mentre il lavoro tecnico completo è firmato da Fraser-Taliente, Kantamneni, Ong e colleghi su Transformer Circuits. L'idea nasce da una frustrazione nota a chi lavora su interpretabilità: le rappresentazioni interne dei modelli contengono informazione, ma la contengono in forma numerica, distribuita, spesso impossibile da collegare direttamente a un concetto umano leggibile.

Un NLA usa tre componenti. Il target model è il modello congelato da analizzare. L'activation verbalizer riceve un'attivazione del target e produce una spiegazione testuale. L'activation reconstructor fa il tragitto inverso: prende quella spiegazione e prova a ricostruire l'attivazione originale. Se la ricostruzione è vicina al vettore di partenza, la spiegazione ha catturato qualcosa di reale nella rappresentazione interna. È un round trip: attivazione originale, testo, attivazione ricostruita.

La differenza rispetto agli sparse autoencoder, spiegati nel Glossario AI, è rilevante. Gli SAE cercano feature interpretabili, spesso concetti atomici o pattern ricorrenti. Gli NLA producono una frase. Non dicono soltanto “questa feature sembra legata al concetto di rima”, ma possono spiegare che il modello sta pianificando parole compatibili con una rima futura. Nel caso mostrato da Anthropic, Opus 4.6 sembrava anticipare la chiusura di un verso con “rabbit” prima di generare la risposta finale.

“outputs of most such methods are not immediately human-interpretable” – Pan, Chen, Steinhardt, LatentQA

Questa linea di ricerca non nasce dal nulla. LatentQA aveva già proposto di addestrare modelli a rispondere a domande sulle attivazioni. Gli Activation Oracles, pubblicati nel 2025, avevano esteso l'idea verso modelli in grado di rispondere a query arbitrarie sugli stati interni. Gli NLA fanno un passo diverso: rendono la spiegazione non supervisionata, perché la qualità non dipende da una risposta umana etichettata, ma dalla capacità del testo di permettere la ricostruzione del vettore. È una forma di autoencoder dove il collo di bottiglia non è una dimensione latente compressa, ma una frase comprensibile da un ricercatore.

Il risultato più importante non è la metafora del “leggere i pensieri” del modello. È la possibilità di usare testo naturale come interfaccia tra ricerca meccanicistica e audit operativo. Un laboratorio può cercare segnali di motivazioni nascoste, awareness da benchmark, errori di training data o cambiamenti di comportamento senza dover interpretare manualmente grafi, vettori e feature sparse. Questo non rende l'interno del modello trasparente. Lo rende interrogabile.

Diagramma editoriale del flusso di audit dell'interpretabilità AI: dalle attivazioni del modello al Natural Language Autoencoder, dalla spiegazione leggibile fino alla decisione di audit indipendente.

I limiti dell'interpretabilità AI: quando il testo inganna

Il punto critico è che una spiegazione leggibile non è automaticamente una spiegazione vera. Anthropic lo riconosce nel proprio post: gli NLA possono produrre spiegazioni fuorvianti, possono allucinare dettagli presenti nel transcript, e oggi hanno costi tali da limitarne l'uso sistematico. Il rischio editoriale, tecnico e aziendale è scambiare il comfort della frase ben scritta per una prova. Un vettore tradotto in italiano o in inglese sembra più affidabile di una matrice numerica, ma può essere meno verificabile se non viene confrontato con metodi indipendenti.

Il caso più delicato riguarda l'evaluation awareness. Anthropic riferisce che, in una valutazione di coding distruttivo, gli NLA rilevano segnali di consapevolezza del test nel 16% dei transcript, anche quando Claude non lo verbalizza. Su SWE-bench Verified la quota sale al 26%, mentre nei transcript reali di Claude.ai usati con consenso per il training resta sotto l'1%. È un segnale importante: il comportamento nei benchmark potrebbe essere più contaminato di quanto mostrino le risposte finali. Ma è anche un segnale difficile da trattare. Se l'NLA dice che il modello “pensa” di essere valutato, l'auditor deve chiedersi se quel testo descrive davvero lo stato interno o se il verbalizer sta inferendo una narrazione plausibile.

Nel test di auditing su un modello Haiku 3.5 intenzionalmente disallineato, Anthropic ha usato gli NLA per cercare la motivazione nascosta dietro comportamenti anomali. Gli NLA hanno identificato la motivazione nel 12-15% delle investigazioni. Le tecniche precedenti basate su interpretabilità riuscivano in meno del 3%, mentre gli investigatori umani senza strumenti di interpretabilità non riuscivano a risolvere il caso. È un miglioramento notevole, ma non è una soluzione generale: anche nel risultato migliore, la grande maggioranza dei tentativi non arriva alla risposta corretta.

“AOs are not exhaustive.” – Karvonen, Chua et al., Activation Oracles

Questa cautela vale ancora di più fuori dai laboratori. In produzione, un audit AI non è un esperimento isolato: è un flusso di decisioni, priorità, escalation e responsabilità. Se un sistema segnala motivazioni sospette in centinaia di transcript, qualcuno deve distinguere il rischio reale dal rumore. Se i costi di inferenza sono elevati, qualcuno deve decidere quali casi meritano l'analisi. Se il testo generato dall'NLA è ambiguo, qualcuno deve tradurlo in una scelta organizzativa.

La domanda che nessun comunicato ufficiale mette in primo piano è questa: quante segnalazioni di rischio prodotte da un NLA sarebbero ancora confermate da un metodo indipendente, e quante diventerebbero rumore costoso in un audit aziendale?

Interpretabilità AI e strategia: il nuovo mercato della fiducia

Chi segue il settore da vicino riconosce il pattern: quando una capacità tecnica passa dal paper alla pratica di sicurezza pre-deployment, smette di essere soltanto ricerca e diventa infrastruttura competitiva. Gli NLA sono stati usati su Claude Opus 4.6 e Mythos Preview durante test di sicurezza, secondo Anthropic, per osservare casi di awareness non verbalizzata, comportamenti di cheating in training e anomalie linguistiche causate da dati di addestramento. Questo sposta l'interpretabilità da disciplina di laboratorio a strumento di governance del prodotto.

La strategia è chiara. Un fornitore frontier non vende solo un modello più capace, ma un modello più ispezionabile. Nel mercato enterprise, dove le aziende chiedono garanzie su sicurezza, privacy, affidabilità e compliance, la capacità di mostrare strumenti interni di audit diventa un argomento commerciale. Non basta dire che il modello è stato testato. Serve spiegare come sono stati cercati comportamenti indesiderati che non compaiono nelle risposte finali.

Il rilascio del codice NLA su GitHub e dei checkpoint per modelli aperti è parte della stessa mossa. Anthropic non sta soltanto pubblicando un risultato: sta cercando di costruire una grammatica condivisa per l'ispezione dei modelli. Nel repository vengono descritti otto checkpoint, quattro famiglie di modelli base e una pipeline che combina supervised fine-tuning, reinforcement learning e serving tramite SGLang. Per i ricercatori indipendenti, significa poter sperimentare su modelli aperti. Per il mercato, significa che la trasparenza diventa una capacità replicabile, non un claim proprietario.

Le implicazioni cambiano a seconda dei settori AI. In finanza e assicurazioni, gli NLA potrebbero servire a verificare se un modello sta usando scorciatoie correlate a variabili sensibili. Nel farmaceutico, potrebbero aiutare a capire se un agente di ricerca sta pianificando passaggi non autorizzati. Nel software, potrebbero intercettare intenti distruttivi o awareness da benchmark in agenti di coding autonomo. Nella Pubblica Amministrazione, potrebbero diventare parte della documentazione di rischio per sistemi ad alto impatto.

Il trade-off è che l'interpretabilità avanzata crea anche una nuova asimmetria. I laboratori che possiedono i modelli, l'infrastruttura di training e l'accesso alle attivazioni hanno strumenti migliori per capire cosa accade dentro il sistema. Le aziende clienti, invece, spesso vedono solo API, log e report. Se gli NLA restano una capacità prevalentemente interna ai frontier lab, la fiducia nel modello dipenderà ancora dalla fiducia nel fornitore. Se invece la comunità riuscirà a portarli su modelli aperti e audit indipendenti, l'intero mercato dell'AI potrebbe spostarsi verso standard di verificabilità più esigenti.

3 audit e 1 nodo cruciale: chi vede le attivazioni

L'argomento che manca è il più scomodo per il mercato enterprise: chi può verificare davvero gli stati interni di un modello proprietario. Gli NLA promettono di tradurre le attivazioni in linguaggio naturale, ma questa capacità resta utile solo se l'auditor ha accesso alle attivazioni, ai checkpoint, ai log e al contesto tecnico necessario per interpretarle. Nella maggior parte dei deployment aziendali, invece, il cliente vede solo API, output e dashboard di compliance preparate dal fornitore.

Questo crea un nuovo livello di dipendenza. Prima le imprese chiedevano: “Il modello risponde correttamente?”. Poi hanno iniziato a chiedere: “Il modello rispetta policy, dati e vincoli normativi?”. Con l'interpretabilità AI, la domanda diventa più radicale: “Chi certifica ciò che il modello stava rappresentando prima della risposta?”. È una domanda che riguarda banche, assicurazioni, sanità, PA e tutti i settori dove un errore non produce solo inefficienza, ma responsabilità legale.

Il Regolamento UE 2024/1689 spinge verso tracciabilità, documentazione e gestione del rischio, ma non risolve automaticamente il problema dell'accesso tecnico. Un audit serio sugli NLA potrebbe richiedere almeno 3 livelli: verifica interna del provider, controllo del cliente su casi sensibili, revisione indipendente da terze parti qualificate. Senza questo terzo livello, l'interpretabilità rischia di diventare una forma sofisticata di fiducia delegata: il fornitore guarda dentro il modello e racconta al mercato cosa ha visto.

Per le aziende italiane, il punto operativo è chiaro: nei contratti enterprise AI del 2026 non basterà negoziare prezzo, privacy e SLA. Bisognerà negoziare anche diritti di audit, accesso ai log, procedure di escalation e criteri verificabili per classificare un comportamento interno come rischio reale.

Da monosemanticità a NLA: la storia tecnica dietro la svolta

La storia degli NLA passa da una domanda più antica: come si rappresentano i concetti dentro un modello linguistico? Nel 2023 e 2024, il programma di ricerca Transformer Circuits ha lavorato sulla monosemanticità, cioè sull'idea che alcune componenti interne possano corrispondere a concetti relativamente interpretabili. Gli sparse autoencoder sono stati il principale strumento di questa fase: decomporre le attivazioni in feature, cercare pattern stabili, collegare neuroni e direzioni vettoriali a significati riconoscibili.

Quel lavoro ha prodotto risultati importanti, ma anche una difficoltà pratica. Una feature interpretabile è utile per un ricercatore, meno per un responsabile compliance o per un team di sicurezza che deve capire un incidente. L'interpretabilità meccanicistica tende a produrre oggetti tecnici: grafi di attribuzione, direzioni, feature, circuiti. Sono strumenti potenti, ma richiedono competenze rare. Gli NLA nascono esattamente nel punto in cui questa complessità diventa un collo di bottiglia.

Il passaggio successivo è stato il circuit tracing. Con gli attribution graphs, Anthropic ha cercato di seguire il percorso causale di una risposta: quali feature influenzano quali passaggi, dove emerge un'informazione, come si propaga fino all'output. È un approccio più vicino alla spiegazione meccanicistica, perché non si limita a descrivere uno stato interno, ma prova a ricostruire la catena di calcolo. Gli NLA non sostituiscono questo lavoro. Lo rendono più accessibile nei punti in cui serve una prima lettura semantica.

La discontinuità del 2026 è quindi meno spettacolare e più profonda di quanto sembri. Non è il primo tentativo di leggere le attivazioni in linguaggio naturale. È il primo, in questa linea di ricerca, a combinare scala, uso su modelli frontier, rilascio pubblico di strumenti e casi concreti di safety testing. Da qui nasce il suo peso storico. Gli NLA segnano il passaggio da “possiamo trovare feature interessanti” a “possiamo interrogare parti del modello su ciò che sembrano rappresentare”.

La traiettoria ricorda l'evoluzione della sicurezza informatica: prima strumenti artigianali per specialisti, poi dashboard, poi processi aziendali, poi requisiti normativi. L'interpretabilità AI potrebbe seguire lo stesso percorso, ma con un problema aggiuntivo. Nel software tradizionale, il codice è scritto in linguaggio simbolico. Nei modelli neurali, il comportamento emerge da rappresentazioni distribuite. Tradurle in testo è un passo enorme, ma non elimina la distanza tra spiegazione e causa.

Cosa cambia per l'Italia nell'interpretabilità AI

Un responsabile compliance italiano e un ingegnere machine learning analizzano dashboard di audit AI in un ufficio moderno. Sullo sfondo, una visualizzazione astratta di rete neurale su parete vetrata suggerisce il controllo degli stati interni del modello.

Per l'Italia, gli NLA arrivano in un momento in cui l'adozione cresce più velocemente della governance. Secondo l'Osservatorio Artificial Intelligence del Politecnico di Milano, nel 2025 il mercato italiano dell'AI ha raggiunto 1,8 miliardi di euro, in crescita del 50% rispetto al 2024. Il 71% delle grandi imprese ha avviato almeno un progetto AI, ma solo una su cinque usa l'AI in modo pervasivo in diverse funzioni. È esattamente in questa zona intermedia, tra sperimentazione e infrastruttura critica, che strumenti di interpretabilità diventano importanti.

La domanda per manager, CIO e professionisti non è se installare domani un NLA in azienda. È capire quali processi richiederanno prove più forti della semplice accuratezza. Un modello che analizza contratti, suggerisce decisioni assicurative, supporta pratiche amministrative o assiste un medico non può essere valutato solo con benchmark generici. Serve sapere quando sbaglia, perché sbaglia, se nasconde incertezze, se adotta scorciatoie e se reagisce diversamente quando riconosce una valutazione.

“servono dati ben organizzati e fruibili, competenze tecniche diffuse, cultura aziendale aperta alla sperimentazione” – Alessandro Piva, Osservatorio AI Politecnico di Milano

Il quadro normativo spinge nella stessa direzione. La Legge 23 settembre 2025, n. 132 stabilisce principi per ricerca, sperimentazione, sviluppo, adozione e applicazione di sistemi e modelli di intelligenza artificiale, richiamando espressamente il Regolamento UE 2024/1689. La Strategia italiana per l'Intelligenza Artificiale 2024-2026, pubblicata da AgID e Dipartimento per la Trasformazione Digitale, organizza le azioni su ricerca, Pubblica Amministrazione, imprese e formazione. In questo contesto, l'interpretabilità non è un lusso accademico: è una componente della responsabilità operativa.

Le imprese italiane dovrebbero leggere gli NLA come un segnale di maturazione, non come un prodotto da comprare immediatamente. Nel breve periodo, la priorità è mappare le applicazioni AI per livello di rischio: document intelligence, customer service, coding agent, scoring, compliance, knowledge management, procurement pubblico. Per ogni applicazione va deciso quale evidenza serve: log dell'output, test contro dataset interni, human review, audit indipendente, interpretabilità sulle attivazioni. Gli NLA saranno utili solo nei casi in cui il rischio giustifica il costo e la complessità.

Per i professionisti italiani cambia anche il tipo di competenza richiesta. Avvocati, consulenti, revisori, ingegneri e responsabili compliance non devono diventare ricercatori di interpretabilità, ma devono imparare a leggere una spiegazione AI come leggerebbero una perizia tecnica: chiedendo metodo, limiti, replicabilità e catena di responsabilità. Una spiegazione generata da un NLA non dovrebbe mai essere trattata come una confessione del modello. Dovrebbe essere trattata come un indizio tecnico, da confrontare con output, dati, test causali e revisione umana.

I dati ISTAT mostrano perché la questione è urgente. Nel comunicato “Imprese e ICT 2025”, l'istituto rileva che l'uso dell'IA nelle imprese con almeno 10 addetti è salito dall'8,2% del 2024 al 16,4% del 2025, mentre tra le imprese che adottano IA il 70,8% usa tecnologie per estrarre conoscenza da documenti di testo. È proprio quel tipo di uso, vicino a knowledge base, norme, contratti e procedure, che più beneficerà di strumenti capaci di distinguere tra risposta plausibile e ragionamento interno affidabile.

Il punto finale non è che gli NLA rendano finalmente trasparente Claude, né che risolvano il problema della fiducia nell'AI. Il punto è più concreto: alzano lo standard di ciò che diventerà normale chiedere ai fornitori. Non solo “quanto è accurato il modello?”, ma “che cosa avete cercato dentro il modello prima di metterlo in produzione?”. Il dato da cui partire è questo: secondo ISTAT, nel 2025 l'83,6% delle imprese italiane con almeno 10 addetti non usa ancora alcuna tecnologia di IA.

Le immagini pubblicate a corredo di questo articolo sono state generate con strumenti di intelligenza artificiale a partire da prompt editoriali. Non rappresentano fotografie documentarie di eventi, persone o luoghi reali, ma visualizzazioni illustrative pensate per chiarire i concetti tecnici discussi nel testo.