Ricerca matematica: l'AI supera l'IMO ma non basta

Ricerca matematica e AI: Gemini fa 35/42 all'IMO, ma Riemann-Bench mostra il vero limite dei modelli nella scoperta scientifica. E ora per chi fa ricerca?

C. Petrolillo Redazione
7 min di lettura
26 Giugno 2026
Ricercatore Terence Tao of the University of California per ricerca matematica

Gemini Deep Think ha ottenuto 35 punti su 42 all'International Mathematical Olympiad 2025, risolvendo 5 problemi su 6 e portando la ricerca matematica dentro una fase che pochi anni fa sembrava ancora remota: sistemi AI capaci non solo di calcolare, ma di produrre dimostrazioni leggibili da giudici umani.

La tensione ora riguarda il lavoro del matematico. I modelli non stanno più entrando solo nei compiti ripetitivi, nella scrittura di codice o nei benchmark scolastici. Stanno toccando il punto dove la matematica diventa identità professionale: formulare congetture, cercare strutture nascoste, costruire prove, verificare che un risultato regga davanti a una comunità di esperti.

Dai 35 punti all'IMO alla ricerca matematica: il salto che cambia la prova

Google DeepMind ha annunciato il 21 luglio 2025 che una versione avanzata di Gemini con Deep Think ha raggiunto lo standard da medaglia d'oro all'IMO, la competizione matematica più selettiva per studenti pre-universitari. Il dettaglio operativo pesa quanto il punteggio: secondo DeepMind, il modello ha lavorato in linguaggio naturale e dentro il limite ufficiale di 4,5 ore, senza la traduzione preliminare in linguaggi formali che aveva caratterizzato AlphaProof e AlphaGeometry nel 2024.

“35 out of a possible 42 points , a gold medal score.” – Prof. Gregor Dolinar, presidente IMO, via Google DeepMind

Nel 2024, il risultato di DeepMind richiedeva ancora un ponte tecnico ingombrante: esperti umani dovevano tradurre i problemi in linguaggi specialistici, come Lean, e il sistema impiegava due o tre giorni di calcolo. Nel 2025, il passaggio a prove scritte in linguaggio naturale cambia la percezione della capacità. Un conto è risolvere un problema quando il mondo è già stato trasformato in codice; un altro è leggere il testo ufficiale, interpretarlo e produrre una dimostrazione che i coordinatori IMO possono valutare.

Chi ha seguito il caso di OpenAI sul problema di Erdős, già analizzato da AI Focus News nell'articolo su AI matematica e OpenAI, riconosce il pattern: i modelli più avanzati iniziano a produrre risultati che non somigliano più a esercizi risolti bene. Somigliano a contributi parziali, verificabili, inseribili in una conversazione scientifica.

Il punto non è celebrare una classifica. Come mostrava anche MathArena, i benchmark matematici stanno cambiando perché i vecchi test statici saturano in fretta. Il valore si sposta verso problemi aggiornati, prove ispezionabili e ambienti dove un modello deve saper rifiutare premesse false, non solo completare il compito.

Quando una dimostrazione diventa codice, l'AI non può più solo “ragionare bene”

Il salto tecnico successivo si chiama formalizzazione: tradurre una dimostrazione matematica in un linguaggio che un proof assistant, come Lean, Isabelle o Rocq, può verificare passo dopo passo. Qui l'AI perde il vantaggio della prosa persuasiva. Una prova formale compila oppure non compila; ogni passaggio deve rispettare regole logiche esplicite.

Il paper “Towards Autonomous Mathematics Research”, pubblicato su arXiv e firmato da ricercatori Google DeepMind, introduce Aletheia, un agente per la ricerca matematica che genera, verifica e corregge soluzioni in linguaggio naturale. Gli autori descrivono tre risultati: un paper generato senza intervento umano su costanti di struttura in geometria aritmetica, una collaborazione uomo-AI su insiemi indipendenti e una valutazione semi-autonoma di 700 problemi aperti dal database Bloom's Erdős Conjectures, con 4 soluzioni autonome.

“generates, verifies, and revises solutions end-to-end in natural language.” – Towards Autonomous Mathematics Research, arXiv 2602.10177

Aletheia mostra una direzione, non un prodotto pronto a sostituire gruppi di ricerca. Il sistema usa strumenti, esplora letteratura, tenta strade, corregge errori. Il valore sta nella forma del workflow: l'AI non riceve solo una domanda, ma lavora su un problema lungo, dove la soluzione richiede tentativi e controllo.

Un secondo esempio arriva dal progetto di formalizzazione della sfera in dimensione 8, legato al risultato per cui Maryna Viazovska ha ricevuto la Fields Medal. Il paper “Progress in Formalizing Sphere Packing in Dimension 8” spiega che nel febbraio 2026 il risultato è stato verificato formalmente e che le fasi finali hanno coinvolto Gauss, il modello di autoformalizzazione di Math, Inc.

Qui il parallelo con OpenQASM 3 e AI quantum diventa utile. Nei domini tecnici duri, il testo plausibile vale poco se non produce un oggetto controllabile: codice quantistico eseguibile, prova Lean verificabile, protocollo sperimentale ripetibile. La ricerca matematica assistita dall'AI entra in quella famiglia di problemi in cui la forma finale conta quanto l'intuizione.

Il limite nascosto dei modelli: brillano nei benchmark, cedono nella ricerca matematica reale

Riemann-Bench, aggiornato su arXiv il 23 giugno 2026, raffredda l'entusiasmo. Gli autori hanno costruito un benchmark privato di problemi di matematica di ricerca, curati da professori, dottorandi e medaglisti IMO con PhD. Ogni problema richiede verifica doppio cieco da due esperti, soluzione chiusa e controlli programmatici. I modelli possono usare strumenti di coding, ricerca e ragionamento aperto, con 100 esecuzioni indipendenti per problema.

“all frontier models currently score below 10%” – Riemann-Bench, arXiv 2604.06802

Il dato separa due mondi. L'IMO misura talento in problemi difficili ma circoscritti. La ricerca matematica reale richiede letteratura avanzata, memoria di risultati precedenti, scelta di strumenti tecnici e resistenza a settimane di vicoli ciechi. Gli autori di Riemann-Bench sostengono che alcuni problemi hanno richiesto settimane ai loro stessi creatori. In quel contesto, il modello da medaglia d'oro torna fragile.

La fragilità non riguarda solo la matematica. DR3-Eval ha mostrato che gli agenti di deep research falliscono spesso nella sintesi fedele delle fonti, anche quando recuperano documenti pertinenti. LifeSciBench ha mostrato lo stesso problema nelle scienze della vita: file reali, dati incompleti e decisioni aperte abbassano le prestazioni rispetto ai test più puliti.

Il rischio è che produca una prova elegante, coerente in superficie e falsa nel punto che richiede più competenza. In matematica, l'errore non si diluisce nella media: basta un passaggio scorretto per far cadere tutto.

Per l'Italia la partita è costruire ricerca aumentata, non sostituire matematici

Chi segue questo spazio da vicino sa che il 2026 sta separando due usi dell'AI scientifica. Da una parte ci sono modelli usati come motori di risposta, con output rapidi e controllo leggero. Dall'altra emergono sistemi integrati in workflow verificabili: proof assistant, sandbox di valutazione, dataset privati, strumenti di audit, revisione umana obbligatoria.

Per università, centri di ricerca e aziende italiane, la seconda strada ha più valore. Un dipartimento di matematica può usare questi strumenti per esplorare lemmi, controllare formalizzazioni, cercare controesempi o accelerare la revisione di passaggi tecnici. Una società che lavora in finanza quantitativa, crittografia, robotica, materiali o simulazione industriale può usarli per ridurre tempi di esplorazione, purché mantenga separata la generazione dalla validazione.

Nel mercato italiano delle applicazioni AI, questo punto cambia il procurement. Non basta chiedere quale modello “ragiona meglio”. Un team deve chiedere se il sistema produce tracce verificabili, se può lavorare con strumenti formali, se conserva fonti e passaggi, se un esperto può interrompere o correggere il processo. Il tema si avvicina anche all'allineamento AI: se un modello sa ottimizzare una dimostrazione ma non sa riconoscere quando deve fermarsi, la competenza diventa rischio operativo.

Per le imprese italiane, il valore più immediato non sta nel “matematico automatico”. Sta in strumenti per R&D che riducono il costo di esplorare ipotesi tecniche. Un laboratorio può generare varianti, formalizzare parti noiose, testare casi limite. Poi deve mettere un esperto nel punto decisivo: validare la prova, scegliere se il risultato ha senso, capire se vale la pena trasformarlo in brevetto, prodotto o paper.

Il vantaggio competitivo andrà a chi costruisce una catena completa: modello, strumenti, verifica, responsabilità. La ricerca matematica assistita dall'AI non cancella il matematico; gli toglie alcuni passaggi meccanici e gli aggiunge un nuovo compito, governare sistemi che ragionano abbastanza bene da essere utili e abbastanza male da richiedere controllo. Il dato che misura la distanza resta quello di Riemann-Bench: con strumenti, ricerca e ragionamento aperto, tutti i frontier model restano sotto il 10%.

Fonti citate

  1. Advanced version of Gemini with Deep Think officially achieves gold-medal standard at the International Mathematical Olympiad, Google DeepMind, 21 luglio 2025.
  2. Towards Autonomous Mathematics Research, arXiv, 10 febbraio 2026, rev. 6 marzo 2026.
  3. Riemann-Bench: A Benchmark for Moonshot Mathematics, arXiv, 8 aprile 2026, rev. 23 giugno 2026.
  4. Progress in Formalizing Sphere Packing in Dimension 8, arXiv, 25 aprile 2026, rev. 29 maggio 2026.
  5. Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs, arXiv, 1 maggio 2026, rev. 15 maggio 2026.