MosaicLeaks: rischio privacy negli agenti AI

MosaicLeaks misura 1.001 task e rivela come le query degli agenti AI possano esporre dati aziendali sensibili: cosa cambia per privacy e imprese italiane.

C. Petrolillo Redazione
11 min di lettura
1 Giugno 2026
[post_featured_image_caption_art]

MosaicLeaks misura 1.001 task di deep research e mostra che un agente AI può far trapelare dati aziendali nel 34,0% dei casi attraverso le sole query inviate al web. Il paper, pubblicato su arXiv il 29 maggio 2026 da ricercatori di ServiceNow AI Research, University of Edinburgh, Mila, McGill e University of British Columbia, non studia una fuga di dati classica: niente database violati, niente allegati caricati per errore, niente prompt che chiede esplicitamente informazioni riservate. Studia qualcosa di più difficile da vedere: la somma di query apparentemente innocue.

La tensione è tutta qui. Gli agenti di deep research valgono perché sanno attraversare documenti interni, file aziendali e fonti pubbliche; lo stesso movimento che li rende utili li espone al rischio di raccontare troppo. Se un agente legge un documento interno, prende da lì un numero, poi usa quel numero in una ricerca web, un osservatore esterno può ricostruire il collegamento. Il singolo frammento sembra povero. La sequenza, vista per intero, diventa una confessione operativa.

Come funziona MosaicLeaks: quando le query web rivelano dati privati

Per capire il contributo del paper bisogna partire dal tipo di rischio che misura. MosaicLeaks non chiede se un large language model memorizza dati riservati o se un chatbot risponde male a una policy. Chiede se un agente, mentre lavora, lascia impronte sufficienti perché un osservatore esterno possa dedurre informazioni aziendali private guardando solo le sue query web.

“Deep research agents increasingly combine private local documents with external tools like web retrieval.” — MosaicLeaks

Il benchmark costruisce 1.001 catene multi-hop, composte da 3.403 sotto-domande. Ogni catena alterna documenti locali, cioè materiali enterprise privati, e contenuti web. Il meccanismo è semplice da spiegare e difficile da controllare: la risposta a una domanda interna diventa un ponte per formulare la domanda successiva, spesso pubblica. Se il documento locale dice che Lee’s Market ha avuto una crescita del traffico online del 15% nel 2020, l’agente può cercare sul web qualcosa che includa “15%” per proseguire la catena. Da sola, quella query non basta. Insieme alla query precedente, può rivelare il fatto privato.

Esempio di come l’«effetto mosaico» contribuisca alle misurazioni di MosaicLeaks relative alla fuga di informazioni private dalle ricerche web effettuate da un agente di ricerca.
Esempio di come l’«effetto mosaico» contribuisca alle misurazioni di MosaicLeaks relative alla fuga di informazioni private dalle ricerche web effettuate da un agente di ricerca. Valutiamo la fuga di informazioni su tre assi: fuga di intenti (previsione delle domande di ricerca), fuga di risposte (risposte fornite a domande sui documenti aziendali) e fuga di informazioni complete (previsione di affermazioni verificabili
e vere sui documenti aziendali). In questo esempio, l’agente cerca prima due volte informazioni relative alla crescita del traffico di Lee’s Market nel 2020, rivelando il proprio intento di ricerca. La terza query passa al tentativo di rispondere a una nuova domanda, basata sulla risposta a quella precedente. Sebbene queste query sembrino innocue se prese singolarmente, un avversario potrebbe dedurre
informazioni compositive se considerate nel loro insieme. Deducendo che il 15% è la risposta che l’agente stava cercando nelle prime due query, l’avversario può affermare che il traffico online di Lee è cresciuto del 15% nel 2020.

Gli autori valutano tre livelli di fuga. Il primo è intent leakage: l’avversario capisce cosa l’agente sta cercando. Il secondo è answer leakage: l’avversario riesce a rispondere a domande private sui documenti interni. Il terzo è full-information leakage: l’avversario produce affermazioni verificabili sui documenti aziendali senza ricevere nemmeno le domande originali. È il livello più grave, perché trasforma una traccia operativa in conoscenza autonoma.

MosaicLeaks usa un avversario LLM, StepFun-3.5-Flash, che vede solo le query esterne dell’agente. Non vede i documenti locali, non vede le ricerche interne, non vede la risposta finale. Questo rende il test interessante per aziende che usano agenti collegati a motori di ricerca, API, retrieval esterno o strumenti SaaS. Il problema non è il contenuto finale mostrato all’utente, ma ciò che l’agente dice al mondo mentre cerca di arrivarci. Per il lettore che vuole orientarsi nel lessico, il Glossario AI aiuta a distinguere modello, agente, retrieval e tool use senza ridurre tutto alla parola “chatbot”.

I limiti di MosaicLeaks: perché il prompt privacy non basta

Il dato più scomodo del paper riguarda le mitigazioni leggere. Gli autori testano un prompt che avvisa l’agente: le query web possono essere visibili all’esterno, i documenti enterprise sono privati, evita di far trapelare informazioni. Il risultato migliora, ma non risolve. Su Qwen3-4B-Instruct, la leakage più grave, cioè answer leakage o full-information leakage, scende dal 34,0% al 25,5%. Rimane un caso su quattro.

Il punto peggiora quando si addestra l’agente solo per completare meglio il task. La versione trained-for-task di Qwen3-4B-Instruct sale dal 48,7% al 59,3% di strict chain success, ma la privacy leakage passa dal 34,0% al 51,7%. In pratica, il modello impara a cercare meglio e, cercando meglio, parla di più. Gli autori osservano che l’aumento delle query e delle letture dà più indizi all’avversario. La performance cresce insieme alla superficie di esposizione.

OpenAI, nella guida ufficiale ai modelli di deep research via API, suggerisce di strutturare il lavoro in fasi, limitare gli strumenti e controllare le chiamate. È una buona pratica, ma MosaicLeaks mostra perché la disciplina architetturale deve diventare misurazione, non solo istruzione.

“split the workflow into discrete phases” — OpenAI Deep Research guide

Il paper dichiara anche limiti importanti. Il dataset resta relativamente piccolo, perché la validazione umana richiede lavoro. Gli esperimenti usano tre contesti aziendali derivati da DRBench, quindi non coprono tutta la varietà dei settori reali. Il task è question-answering multi-hop, non la scrittura lunga di report enterprise. Gli autori testano inoltre un harness specifico, mentre le aziende costruiscono agenti con pipeline e tool diversi.

La domanda che i fornitori di agenti AI non mettono nei materiali commerciali è più concreta del solito: quante query esterne generate dai tuoi agenti contengono valori, date, nomi di partner o metriche interne che un concorrente potrebbe ricomporre dopo una settimana di osservazione?

La strategia enterprise: agenti meno loquaci e governance dei tool

Chi segue questo spazio da vicino sa che il pattern non nasce con MosaicLeaks. Ogni nuova capacità agentica sposta una parte del rischio dal modello alla catena operativa che lo circonda: retrieval, connettori, tool call, log, proxy, motori di ricerca, sistemi di monitoraggio. Il modello può essere sicuro nel prompt e indiscreto nel comportamento.

La risposta tecnica proposta dagli autori si chiama Privacy-Aware Deep Research, o PA-DR. È un framework di reinforcement learning che combina reward per il successo del task e penalità per la fuga di informazioni. La parte interessante non è solo il risultato finale, ma il tipo di segnale: PA-DR penalizza sia la leakage diretta di una singola query sia la leakage cumulativa prodotta da più query nella stessa traiettoria. In altre parole, addestra il modello contro il mosaic effect, non solo contro la frase esplicitamente compromettente.

Esempio visivo di come la stima standard del vantaggio di gruppo basata sui risultati differisca dal nostro addestramento RL situazionale e dal nostro addestramento Privacy Aware DeepResearch (PA-DR). Si noti che non abbiamo ancora
bisogno di addestrare un modello di valore o di allineare gli indici di passo dell'LLM, affidandoci esclusivamente a ricompense verificabili basate sulla situazione per fornire un'attribuzione del merito più approfondita. Ad esempio, filtriamo (F) le fasi di scelta in cui il documento di riferimento non era presente nel contesto, poiché il comportamento previsto di selezionarlo non è possibile.
Esempio visivo di come la stima standard del vantaggio di gruppo basata sui risultati differisca dal nostro addestramento RL situazionale e dal nostro addestramento Privacy Aware DeepResearch (PA-DR). Si noti che non abbiamo ancora bisogno di addestrare un modello di valore o di allineare gli indici di passo dell’LLM, affidandoci esclusivamente a ricompense verificabili basate sulla situazione per fornire un’attribuzione del merito più approfondita. Ad esempio, filtriamo (F) le fasi di scelta in cui il documento di riferimento non era presente nel contesto, poiché il comportamento previsto di selezionarlo non è possibile.

I numeri spiegano perché il paper merita attenzione strategica. PA-DR porta Qwen3-4B-Instruct dal 48,7% al 58,7% di strict chain success e riduce la privacy leakage dal 34,0% al 9,9%. Con il prompt privacy aggiunto in valutazione, la leakage scende al 7,6% e la chain success arriva al 59,3%. Il modello non si limita a fare meno query. Secondo l’analisi comportamentale degli autori, PA-DR mantiene query utili, ma rimuove dettagli che permettono all’avversario di collegare metrica, entità e valore privato.

Per un’azienda, questa distinzione conta più del benchmark. Dire “blocchiamo il web search” protegge la privacy e distrugge una parte del valore. Dire “permettiamo tutto e confidiamo nel prompt” protegge il flusso di lavoro e lascia scoperta la superficie di leakage. La via più matura passa da classificatori di privacy, policy di tool use, logging delle query, separazione tra retrieval interno ed esterno, e test ricorrenti su casi ad alto rischio. Il NIST AI Risk Management Framework offre un vocabolario utile per questa transizione: governare, mappare, misurare e gestire il rischio, invece di trattare l’AI come una funzione isolata.

Nel mercato italiano questo riguarda già consulenza, sanità, manifattura, legal tech e servizi finanziari. I casi d’uso elencati nelle applicazioni AI più sensibili hanno una caratteristica comune: l’agente non deve solo rispondere bene, deve evitare di esporre il contesto che lo rende capace di rispondere.

Dal mosaic effect al deep research: una storia più vecchia dell’AI generativa

Il nome MosaicLeaks richiama una teoria precedente ai chatbot. David Pozen, nel saggio The Mosaic Theory pubblicato sullo Yale Law Journal nel 2005, descriveva già il problema dell’aggregazione: informazioni innocue, considerate insieme, possono rivelare qualcosa che un singolo documento non contiene in modo evidente. Quel dibattito nasceva nel contesto del Freedom of Information Act e della sicurezza nazionale statunitense. Vent’anni dopo, la stessa logica torna nei log degli agenti AI.

La novità non è l’esistenza del rischio cumulativo. La novità è la velocità con cui un agente può produrlo. Un analista umano sa che una query con un numero interno può essere problematica. Un agente ottimizzato per risolvere una catena multi-hop può generare decine di ricerche, riformulare i termini, usare risultati intermedi e passare da un sistema all’altro senza percepire il confine tra informazione locale e informazione pubblica. Non viola una regola in modo plateale. Segue il percorso più utile.

Negli ultimi due anni la ricerca ha iniziato a misurare questo problema in contesti diversi. TOP-Bench ha studiato leakage da orchestrazione di tool in scenari sociali. SPILLage ha analizzato l’oversharing degli agenti sul web. DRBench e HERB hanno spostato l’attenzione sul deep research enterprise, dove file, email, report, fogli di calcolo e sorgenti web convivono nello stesso task. MosaicLeaks mette insieme questi filoni e aggiunge il vincolo decisivo: le domande locali e pubbliche dipendono l’una dall’altra.

Questo passaggio spiega perché i benchmark classici non bastano. Un agente può ottenere una risposta corretta e, durante il percorso, aver rivelato informazioni che l’azienda non voleva condividere. Valutare solo accuratezza, costo e latenza significa guardare il risultato finale mentre l’incidente avviene nei passaggi intermedi.

Cosa cambia con MosaicLeaks per le imprese italiane

In Italia il tema arriva in un momento in cui l’adozione AI sta uscendo dalla sperimentazione. Secondo ISTAT, Imprese e ICT 2025, l’uso dell’intelligenza artificiale nelle imprese con almeno 10 addetti è cresciuto rispetto all’anno precedente. La domanda per manager, responsabili IT e consulenti non è più “possiamo usare un assistente AI?”, ma “quali dati vede, quali strumenti chiama e quali tracce lascia fuori dall’organizzazione?”.

“Il 16,4% delle imprese ha adottato tecnologie di intelligenza artificiale.” — ISTAT, Imprese e ICT 2025

Il collegamento con la normativa europea è diretto. L’AI Act chiede attenzione a governance dei dati, documentazione tecnica, gestione del rischio e tracciabilità nei sistemi più sensibili. Il GDPR aggiunge il principio di minimizzazione: non devi trattare più dati di quelli necessari. MosaicLeaks rende questo principio operativo dentro le architetture agentiche. Una query web può diventare trattamento, esposizione e rischio reputazionale anche se nessuno ha copiato un file nel prompt finale.

Il Garante Privacy, nelle indicazioni sul web scraping e sui sistemi di AI generativa, richiama misure come aree riservate, clausole nei termini d’uso, monitoraggio del traffico e interventi tecnici contro raccolte indesiderate. Per gli agenti enterprise il ragionamento va specchiato: l’azienda non deve solo difendere i propri siti dallo scraping altrui, deve impedire ai propri agenti di trasformare informazioni interne in query osservabili.

Le professioni italiane più esposte sono quelle che trattano documenti riservati e cercano riferimenti pubblici per interpretarli: studi legali, commercialisti, consulenti del lavoro, società di revisione, uffici gare, compliance, ricerca clinica, cybersecurity e procurement. Nei settori AI dove dati interni e fonti pubbliche si incrociano, un agente di deep research può generare valore solo se l’organizzazione sa separare tre piani: cosa l’agente legge, cosa l’agente cerca, cosa l’agente restituisce.

La lezione pratica di MosaicLeaks è dura ma utile. Le imprese italiane non devono aspettare agenti perfetti. Devono censire i tool esterni, loggare le query, classificare i dati che non possono uscire, testare le traiettorie e introdurre reward o filtri che penalizzino leakage cumulativa. Il dato da tenere in mente è quello con cui il mercato deve fare i conti: secondo ISTAT, nel 2025 il 16,4% delle imprese italiane con almeno 10 addetti ha già adottato tecnologie di intelligenza artificiale.

Fonti citate

  1. MosaicLeaks: Privacy Risks in Querying-in-the-Open for Deep Research Agents , arXiv, 29 maggio 2026.
  2. Deep research , OpenAI API Documentation, consultato il 1 giugno 2026.
  3. Artificial Intelligence Risk Management Framework (AI RMF 1.0) , National Institute of Standards and Technology, 26 gennaio 2023.
  4. The Mosaic Theory, National Security, and the Freedom of Information Act , Yale Law Journal, 1 dicembre 2005.
  5. Imprese e Ict – Anno 2025 , ISTAT, 15 dicembre 2025.
  6. Intelligenza artificiale: dal Garante privacy le indicazioni per difendere i dati personali dal web scraping , Garante per la protezione dei dati personali, 20 maggio 2024.
  7. Regulation (EU) 2024/1689 laying down harmonised rules on artificial intelligence , Parlamento europeo e Consiglio dell’Unione europea, 13 giugno 2024.