OpenAI ha mostrato Tax AI, un sistema sviluppato con Thrive Holdings per Crete che ha processato circa 7.000 dichiarazioni fiscali in oltre 30 studi contabili, dichiarando fino al 97% di accuratezza. Il caso conta perché sposta la discussione dagli agenti fiscali AI come demo conversazionali agli agenti AI verticali che migliorano dentro un processo professionale tracciato.
Il punto non è che “l’AI fa le tasse”. Il punto è più tecnico e più rilevante per il mercato: OpenAI sta mostrando un modello operativo in cui correzioni umane, tracce di produzione, test di valutazione e Codex diventano un ciclo di miglioramento continuo, senza togliere il controllo al professionista.
Che cosa ha costruito OpenAI con Tax AI
Tax AI prepara dichiarazioni fiscali statunitensi, in particolare moduli 1040 e 1041, partendo da file sorgente, note cliente e documenti non strutturati. Il sistema genera una submission per il motore fiscale, poi il professionista la rivede, corregge i campi e decide cosa inviare.
Secondo OpenAI, il sistema è stato co-sviluppato con Thrive Holdings e usato nella rete Crete durante la stagione fiscale. Tax AI non nasce come chatbot fiscale generico: lavora dentro un workflow specifico, con documenti, campi, citazioni, mappature e controlli.
“expert practitioner feedback, production traces, and a Codex-driven iteration loop”
Fonte: OpenAI
La parte decisiva è proprio questa: ogni correzione non resta un intervento isolato. Diventa un segnale tecnico. Se un commercialista modifica un valore, il sistema può registrare il campo previsto, il valore corretto, il documento di origine, la citazione usata, la mappatura verso il tax engine e il risultato finale. In un dominio come il fisco, questa differenza separa l’automazione fragile da un agente verificabile.
Perché il punto non è solo risparmiare tempo
OpenAI dichiara tre risultati operativi: circa un terzo del tempo risparmiato nella preparazione, throughput aumentato di circa il 50% e accuratezza fino al 97%. Il dato più interessante, però, riguarda l’evoluzione della qualità: al lancio, circa un quarto delle dichiarazioni raggiungeva almeno il 75% di completamento corretto dei campi; dopo sei settimane, la quota è salita all’86%.
Questa metrica è più utile della sola “accuratezza” perché misura quanta revisione resta al professionista. Una dichiarazione corretta al 75% richiede ancora lavoro. Una dichiarazione vicina al 100% cambia il carico operativo dello studio. OpenAI cita anche miglioramenti sui livelli del 90% e del 100%, ma non fornisce nel case study tutti i dettagli necessari per una valutazione indipendente.
Il contesto fiscale rende il benchmark meno banale. Tax AI ha iniziato con casi più semplici, come W-2 e 1099, poi si è spostato verso dichiarazioni con K-1, rental real estate schedules, LLC, deduzioni e dati da riconciliare tra più documenti. Sono proprio questi casi a creare valore, perché consumano ore di lavoro esperto e producono errori difficili da diagnosticare.
Il ciclo tecnico: feedback, tracce, eval, Codex
Il file di partenza individua il cuore tecnico del caso: il sistema non “migliora magicamente”. Migliora perché trasforma il lavoro dei professionisti in casi di valutazione. Una correzione ricorrente non viene trattata solo come errore, ma come possibile sintomo di un problema nel parser, nello schema, nella mappatura, nel grader o nel supporto prodotto.
Il ciclo operativo è questo: il commercialista corregge un campo; il sistema registra valore previsto, valore corretto e contesto; correzioni simili vengono raggruppate; i pattern ricorrenti diventano eval target; Codex analizza codice, schema, mapper, grader e tracce; la modifica viene validata con eval mirate e regression test; se il caso resta ambiguo, torna agli ingegneri o al team prodotto.
Per chi costruisce applicazioni AI in azienda, questo è il passaggio da osservare. Il vantaggio non nasce solo dal modello linguistico, ma dall’ambiente attorno al modello: log leggibili, dati strutturati, test ripetibili, revisione umana e confini chiari. Senza questi elementi, un agente verticale resta una demo brillante con una memoria corta.
Perché gli agenti fiscali è importante per gli agenti AI verticali
Chi segue questo spazio da vicino riconosce il pattern: le aziende non comprano agenti AI perché parlano bene, li adottano quando entrano in processi dove un errore può essere visto, corretto e trasformato in miglioramento. Il fisco è un caso ideale perché combina documenti ripetitivi, eccezioni frequenti, responsabilità professionale e dati che devono tornare.
Il modello può estendersi ad audit, contabilità, compliance, gestione documentale, IT help desk e software gestionali. In tutti questi settori, il problema non è produrre testo: è trasformare input disordinati in azioni verificabili. Un agente utile deve sapere citare la fonte, spiegare perché ha scelto un campo, accettare correzioni e non rompere casi già risolti.
Per OpenAI, Tax AI mostra anche una direzione strategica: Codex non viene usato solo per assistere programmatori individuali, ma per accelerare lo sviluppo di prodotti verticali. L’agente fiscale diventa un laboratorio per un’idea più ampia: usare Codex per chiudere il ciclo tra errore osservato in produzione, modifica del sistema e test prima del rilascio.
I limiti: non è autonomia completa
Il primo limite è geografico e normativo. Tax AI riguarda fiscalità statunitense, non dichiarazioni italiane. Moduli, prassi, software, controlli, responsabilità e interpretazioni cambiano. Un sistema addestrato o progettato intorno a 1040 e 1041 non può essere trasferito direttamente su 730, Redditi PF, ISA, dichiarazioni IVA o adempimenti societari italiani.
Il secondo limite riguarda la qualità dei dati. Una correzione umana non indica sempre un errore tecnico. Può riflettere una scelta professionale, una preferenza dello studio, un’informazione arrivata fuori sistema o un caso non supportato dal prodotto. Se il ciclo di miglioramento interpreta male quel segnale, rischia di ottimizzare il comportamento sbagliato.
“Human oversight shall aim to prevent or minimise the risks to health, safety or fundamental rights”
Fonte: Regolamento UE 2024/1689, Articolo 14
L’AI Act non trasforma automaticamente ogni software fiscale privato in sistema ad alto rischio, ma indica una traiettoria chiara per i sistemi che incidono su diritti, accesso a servizi, valutazioni o processi pubblici: supervisione, tracciabilità e controllo umano non sono optional. La domanda scomoda è semplice: quanti studi professionali sono pronti a valutare un agente non dalla demo, ma dai log, dagli eval e dai casi limite che fallisce?
Cosa significa per aziende e professionisti italiani
Per i commercialisti italiani, la lezione non è adottare domani Tax AI. La lezione è pretendere strumenti che trasformino la revisione professionale in conoscenza riutilizzabile. Un buon agente fiscale dovrebbe mostrare da quale documento ha preso un dato, quale campo ha popolato, con quale confidenza, quale regola ha applicato e come ha reagito alle correzioni precedenti.
Per software house e società di consulenza, il vantaggio competitivo si sposta sulla qualità del workflow. Non basta integrare un modello in un gestionale. Serve costruire un circuito in cui ogni intervento esperto diventa dato strutturato: correzioni, eccezioni, casi ambigui, test regressivi, controlli privacy e versioning. Nei settori AI regolati, questa infrastruttura pesa più della promessa commerciale.
Per le imprese, il caso Tax AI suggerisce un uso più realistico degli agenti: non sostituire il responsabile fiscale, ma ridurre il lavoro ripetitivo su documenti, riconciliazioni e controlli preliminari. Il professionista resta responsabile della decisione, ma lavora su una bozza più completa, con anomalie evidenziate e fonti recuperabili.
La scala italiana rende il tema concreto. Secondo il Dipartimento delle Finanze, oltre 42,8 milioni di contribuenti hanno assolto l’obbligo dichiarativo IRPEF per l’anno d’imposta 2024, in aumento dello 0,6% rispetto all’anno precedente. Secondo la Fondazione Nazionale Commercialisti, gli iscritti all’Albo erano 120.424 a fine 2023, mentre le società tra professionisti hanno raggiunto quota 1.768, con una crescita del 10%.
