Workflow agentici: il metodo MIT che taglia i costi AI

MIT e Microsoft presentano Murakkab: workflow agentici con 27% dell'energia e meno del 25% dei costi. Perché cambia il cloud AI per aziende e sviluppatori

C. Petrolillo Redazione
5 min di lettura
25 Giugno 2026
spirale con palette viola, workflow agentici ottimizzati per ridurre energia e costi A

MIT e Microsoft hanno presentato Murakkab, un sistema per ottimizzare i workflow agentici che nei test ha usato circa il 35% della computazione, il 27% dell'energia e meno del 25% dei costi rispetto agli approcci tradizionali.

Per chi sviluppa agenti AI, la notizia conta perché porta il problema fuori dalla demo e dentro la fattura cloud. Un agente che analizza video, genera codice o interroga strumenti aziendali non consuma solo token: consuma GPU, memoria, scheduling e tentativi falliti. Se il workflow è progettato male, anche un buon modello diventa costoso da usare.

Come funzionano i workflow agentici di Murakkab

Secondo MIT News, Murakkab permette a uno sviluppatore di descrivere in linguaggio naturale cosa deve fare l'applicazione, senza specificare in anticipo tutti i dettagli del flusso. Il sistema sceglie modelli, strumenti, ordine di esecuzione, hardware e allocazione delle risorse in base agli obiettivi del cliente: ridurre i costi, rispettare una soglia di latenza o privilegiare accuratezza.

Un workflow agentico non è un chatbot con una finestra più lunga. È una catena di agenti, modelli e tool che lavorano su compiti in più passaggi: analizzare video, chiamare database, scrivere codice, verificare un risultato. Oggi molti team configurano queste catene a mano. Scelgono il modello, decidono cosa gira in sequenza, stimano quanta capacità GPU serve e sperano che la configurazione regga quando cambiano traffico o vincoli di costo.

Murakkab interviene su quel punto. Nel paper, gli autori lo descrivono come un sistema che separa la specifica del compito dalla configurazione di esecuzione. In pratica, il team dichiara l'obiettivo; un ottimizzatore guidato da profili e un runtime adattivo decidono come distribuire il lavoro tra modelli, strumenti e risorse cloud.

“Energy usage is a huge concern. It is very easy to over-allocate resources, wasting energy and money.” – Gohar Chaudhry, MIT News

Il dettaglio tecnico è la visibilità. Murakkab espone al cloud provider la struttura interna del flusso, così il provider può condividere risorse fra workload diversi e rispettare vincoli di qualità, costo e latenza. La domanda che il comunicato non mette al centro è più scomoda: se il cloud provider decide in tempo reale modello, hardware e schedule, quanto controllo resta al team che firma SLA, budget e responsabilità verso il cliente?

I numeri dietro energia e costi

Nei test citati dal MIT, Murakkab ha lavorato su carichi diversi, tra cui video question answering e generazione di codice. Il sistema ha soddisfatto i requisiti degli utenti usando solo circa il 35% della computazione richiesta da altri metodi. Ha consumato circa il 27% dell'energia e meno del 25% del costo.

Il paper traduce il risultato in metriche più ingegneristiche: fino a 2,8 volte meno uso di GPU, 3,7 volte meno energia e 4,3 volte meno costo, mantenendo gli SLO, cioè gli obiettivi di servizio come latenza, qualità e disponibilità. In un caso, Murakkab ha ridotto il consumo energetico di oltre un ordine di grandezza accettando un calo di accuratezza di circa il 2%.

Questi numeri pesano perché il mercato misura gli agenti soprattutto su capacità: coding, uso di strumenti, memoria, autonomia, benchmark. Murakkab sposta la discussione su una metrica meno spettacolare ma più decisiva: quanta infrastruttura serve per completare un task utile.

Perché cambia il cloud degli agenti AI

Il lavoro di MIT e Microsoft arriva mentre le applicazioni AI si spostano dai modelli isolati ai sistemi composti. Un prodotto moderno non chiama più solo un LLM: usa motori di ricerca, database vettoriali, interpreti Python, tool interni, modelli specializzati e controlli di sicurezza. Ogni passaggio aggiunge latenza, costo e consumo energetico.

Il paper precedente degli stessi autori sui sistemi AI composti aveva già indicato il problema: logica applicativa e dettagli di esecuzione restano troppo intrecciati. Murakkab prova a trasformare la pipeline in una descrizione più dichiarativa, lasciando al sistema il compito di ottimizzare il deployment.

Tra gli autori compare Ricardo Bianchini di Microsoft Azure. Il segnale cloud è chiaro: non vendere solo modelli o GPU, ma orchestrazione, scheduling, policy e compromessi automatici tra costo e qualità.

Cosa cambia per aziende e sviluppatori italiani

Murakkab non arriverà domani nei pannelli cloud europei. Il sistema resta ricerca, sarà presentato all'USENIX Symposium on Operating Systems Design and Implementation e gli autori vogliono estenderlo a workflow più complessi e cluster più grandi. Ma la metrica da pretendere dai fornitori esiste già: costo per task, energia per richiesta, latenza sotto carico e comportamento quando il sistema deve scegliere tra qualità e risparmio.

Per chi lavora in Italia, dove molti budget AI devono giustificare ogni euro di cloud, il punto operativo è semplice.

Prima di mettere in produzione un agente, conviene chiedere quanti passaggi esegue, quali componenti possono girare in parallelo, quanta GPU usa e quanto costa ogni risposta completa. I workflow agentici diventeranno sostenibili quando il loro consumo sarà misurabile, negoziabile e abbastanza basso da stare dentro un conto economico reale.

Fonti citate

  1. Improving the speed and energy-efficiency of AI agents , MIT News, 25 giugno 2026.
  2. Murakkab: Resource-Efficient Agentic Workflow Orchestration in Cloud Platforms , arXiv, ultima revisione 3 settembre 2025.
  3. Towards Resource-Efficient Compound AI Systems , arXiv, ultima revisione 17 marzo 2025.