Analisi dati

Letteratura scientifica: il dato allarmante sull’AI

C. Petrolillo

6 Maggio 2026

READ TIME : 6 MIN

La letteratura scientifica mostra già un’impronta misurabile dell’AI: Organization Science ha registrato +42% di submission dopo novembre 2022, mentre su arXiv i review preprint di informatica con testo generato da LLM sono saliti fino al 43% nel 2025. La domanda di Nature non è più teorica: il problema è capire quanta ricerca stiamo leggendo, valutando e citando senza sapere davvero come è stata prodotta.

La notizia arriva in una fase in cui l’AI generativa non è più solo uno strumento per scrivere email o codice, ma un’infrastruttura invisibile dentro la produzione della conoscenza. I grandi modelli linguistici, o LLM, possono aiutare ricercatori non madrelingua, sintetizzare letteratura e migliorare testi tecnici; la stessa tecnologia, però, può moltiplicare articoli deboli, revisioni superficiali e manoscritti creati per aggirare un sistema editoriale già sovraccarico.

Come si misura la letteratura scientifica generata da AI

Il dato più concreto arriva da Organization Science, che ha analizzato 6.957 submission iniziali e 10.389 revisioni testuali tra gennaio 2021 e febbraio 2026 usando Pangram, un AI detector che assegna a ogni testo un punteggio continuo da 0 a 1. Non è un’etichetta morale: è una stima statistica della pervasività dell’AI nella scrittura, calcolata su finestre di circa 400 parole.

Lo studio distingue quattro fasce: sotto il 15% come uso minimo o assente, 15-30% come collaborazione leggera, 30-70% come controllo sostanziale del modello, oltre il 70% come testo prevalentemente generato. A febbraio 2026, la maggioranza delle submission del journal mostrava qualche grado di uso dell’AI; la categoria oltre il 70% era più che raddoppiata rispetto all’inizio del 2024. Il campione di manoscritti completi, pur limitato a 230 paper, conferma che l’abstract è un indicatore imperfetto ma utile del resto del testo.

“AI language models, combined with strong publish-or-perish incentives, are pushing our field to produce more rather than better research.” — Gartenberg et al., Organization Science, 2026

Il punto tecnico è importante: questi strumenti non scoprono l’intenzione dell’autore, ma pattern linguistici compatibili con generazione automatica. Per questo i risultati valgono soprattutto come segnali aggregati. Se un singolo paper viene classificato come “AI”, il margine di errore resta troppo alto per una sanzione; se migliaia di paper cambiano distribuzione dopo ChatGPT, il segnale diventa difficile da ignorare.

Il segnale nei preprint e nel biomedico

Il quadro non riguarda solo un journal. Nel preprint bioRxiv Fine-Grained Detection of AI-Generated Writing in the Biomedical Literature, Richard She ha analizzato articoli biomedici full text da 13 riviste principali: nei paper pubblicati nel 2025, il 12,4% conteneva almeno un passaggio locale classificato come AI-generato, con forti differenze geografiche. Nature riporta che sei paper sono stati segnalati come interamente scritti da AI e che circa un articolo su otto conteneva qualche porzione generata.

Il preprint arXiv di Yanai Elazar e Maria Antoniak sposta l’attenzione sui repository aperti. Su oltre 124.000 manoscritti tra 2020 e 2025, i review preprint di computer science con testo generato da LLM passano da circa il 7% nel 2023 al 43% nel 2025; i non-review salgono dal 3% al 23%. È un aumento rapido, ma non uniforme.

“the estimates of non-review LLM-generated papers are almost six times higher.” — Elazar e Antoniak, arXiv, 2026

La frase è decisiva perché rovescia un’intuizione comoda. I review paper hanno percentuali più alte, ma i paper non-review sono molti di più: limitare solo le review rischia di trattare il sintomo più visibile, non la massa principale.

La peer review diventa il punto di pressione

La peer review, cioè la valutazione da parte di esperti prima della pubblicazione, era già una macchina fragile: pochi revisori, tempi lunghi, incentivi accademici costruiti sul numero di pubblicazioni. L’AI non crea questo squilibrio, lo accelera.

In Organization Science, oltre il 30% delle review contiene oggi qualche grado di AI. Non è automaticamente un male: un revisore può usare un modello per sistemare inglese, struttura e chiarezza. Ma lo studio osserva che le review con più AI sono meno leggibili, più dense di gergo e più strette nei temi: più teoria, meno dati ed empiria. In pratica, sembrano produrre valutazioni grammaticalmente ordinate ma epistemicamente più povere.

Il dato più severo riguarda il filtro editoriale. I manoscritti sopra il 70% di AI hanno un desk reject del 69,6% e ricevono una decisione di revise and resubmit solo nel 3,2% dei casi, contro l’11,9% dei testi sotto il 15% di AI. Questo non prova che “usare AI” renda un paper cattivo; prova che, nel sistema attuale, l’AI viene spesso usata per aumentare volume dove manca sostanza.

La domanda che nessun comunicato ufficiale vuole formulare è semplice: stiamo misurando una crisi di scrittura automatica o una crisi di incentivi che l’AI ha solo reso più economica?

I limiti dei detector nella letteratura scientifica

La sezione più importante è anche la meno spettacolare: nessuno sa misurare con precisione assoluta quanta letteratura scientifica sia generata dall’AI. Gli AI detector possono confondere testo generato, testo riscritto, traduzione assistita e copyediting. Possono produrre falsi positivi, soprattutto su testi tecnici, non madrelingua o molto standardizzati. E non vedono usi cruciali dell’AI fuori dalla scrittura: scelta delle ipotesi, generazione di codice, analisi dati, sintesi bibliografica.

Organization Science lo riconosce esplicitamente: Pangram è usato per trend aggregati, non per giudicare singoli autori. Il modello stesso produce uno score, non una confessione. Anche il preprint arXiv di Elazar e Antoniak usa due metodi proprio per evitare che un singolo detector diventi arbitro della policy. Il nodo è la ground truth, la “verità di base”: senza sapere come ogni testo è stato prodotto, la misurazione resta inferenza.

Il watermarking, cioè l’inserimento di segnali riconoscibili nei testi generati, potrebbe aiutare. Nature ricorda che una grande conferenza AI ha respinto 497 paper dopo aver usato una tecnologia di watermarking sulle review. Ma anche questa strada è acerba: funziona se i modelli la adottano, se il testo non viene riscritto e se gli attori scorretti non trovano modi per rimuovere il segnale.

Cosa cambia per aziende e professionisti italiani

Per università, editori, centri R&D e aziende italiane che usano paper per decidere investimenti, brevetti, policy o applicazioni AI, la lezione non è “non fidarsi più della ricerca”. È costruire processi più adulti. Una review interna non può limitarsi al riassunto di un paper: deve controllare dati, codice, protocollo, conflitti di interesse, repository, versioni e coerenza tra metodo e conclusioni.

Chi lavora su due diligence tecnologica, farmaceutica, cybersecurity, sanità digitale o applicazioni AI dovrebbe introdurre checklist esplicite sull’uso dichiarato di AI e sulla qualità delle evidenze. Nei team che producono ricerca, serve una policy chiara: AI ammessa per editing, traduzione o supporto al codice; vietata per inventare contenuto, review sostanziali o risultati non verificati; obbligo di disclosure quando il contributo supera la rifinitura linguistica. Per i termini di base, un riferimento utile resta il Glossario AI, ma qui il problema è organizzativo prima che lessicale.

Il cambiamento di lungo periodo sarà una separazione più netta tra quantità pubblicata e affidabilità verificata. Nel 2026 la letteratura scientifica non è “scritta dall’AI” in blocco: le stime credibili oscillano da un 12,4% di paper biomedici 2025 con almeno un passaggio AI al 43% dei review preprint CS su arXiv, e proprio questa forbice è il dato operativo da cui partire.