Gemma 4 su Bedrock: svolta open per AWS

AWS ha portato 3 varianti di Gemma 4 su Amazon Bedrock: 31B, 26B-A4B ed E2B, rendendo i modelli open-weight di Google DeepMind accessibili dentro il proprio stack enterprise dal 15 giugno 2026. La notizia conta perché sposta Gemma 4 da modello scaricabile e sperimentabile a componente gestito dentro una piattaforma cloud già usata da aziende, team data e sviluppatori.

Per chi lavora con AI in produzione, il punto non è solo provare un nuovo modello. Il punto è scegliere tra modelli proprietari, open-weight e ibridi senza riscrivere l'intera infrastruttura applicativa. AWS sta dicendo ai clienti: potete usare un modello Google, con API compatibili OpenAI, dentro Bedrock, con controlli IAM, quote, tier di servizio e protezione dati AWS.

Come funziona Gemma 4 su Amazon Bedrock

Nel post ufficiale, AWS presenta Gemma 4 su Bedrock come una famiglia di modelli instruction-tuned orientati a ragionamento, agenti, codice e input multimodale. Le tre varianti disponibili coprono profili diversi: Gemma 4 31B è il modello dense più grande, Gemma 4 26B-A4B usa un'architettura mixture-of-experts con 25,2 miliardi di parametri totali e 3,8 miliardi attivi per token, mentre Gemma 4 E2B punta a inferenza più rapida e costi più bassi.

La scelta di AWS non include, almeno in questa integrazione iniziale, il modello Gemma 4 12B Unified. È un dettaglio da esplicitare perché AI Focus News ha già analizzato Gemma 4 12B come modello locale multimodale unificato: quel modello resta rilevante per laptop, ambienti locali e sperimentazioni più vicine all'edge, ma non è tra quelli utilizzati ora da Amazon Bedrock.

Sul piano tecnico, Gemma 4 arriva su Bedrock attraverso bedrock-mantle, un endpoint compatibile con Chat Completions e Responses API. Per un team che usa già SDK OpenAI in Python o TypeScript, la migrazione può ridursi al cambio di base URL e model ID. È una scelta strategica: AWS abbassa il costo di passaggio tra provider, ma mantiene l'applicazione dentro il perimetro Bedrock.

“Your prompts and completions are not used to train any models.” — AWS

Il messaggio è pensato per clienti enterprise: usare un modello open-weight non significa rinunciare a governance, isolamento e controllo operativo. I modelli supportano function calling nativo, input testo+immagine, system prompt e modalità di ragionamento. La finestra di contesto arriva fino a 256K token per 31B e 26B-A4B, mentre E2B si ferma a 128K.

I limiti di Gemma 4 su Bedrock

La parte meno visibile dell'annuncio riguarda i vincoli pratici. Al lancio, AWS indica la disponibilità in quattro regioni: US East Virginia, US East Ohio, US West Oregon ed Europe Frankfurt. Per un'azienda italiana, Frankfurt è un segnale utile, ma non chiude da solo il tema compliance. Regione europea, data protection e base giuridica del trattamento restano piani diversi.

C'è poi il vincolo dell'endpoint. bedrock-mantle non eredita automaticamente tutte le logiche del vecchio bedrock-runtime: AWS documenta quote separate per input e output token al minuto, con throttling e possibili limiti interni. Per applicazioni customer-facing, un modello che risponde bene in demo deve ancora dimostrare stabilità sotto traffico reale, picchi, retry e costi per tier.

La modalità di ragionamento aggiunge un altro punto delicato. AWS e Google chiariscono che nei turni successivi non bisogna reinserire nella cronologia i contenuti di thinking prodotti dal modello. Si possono conservare nei log o negli audit trail, ma non vanno rimandati al modello come contesto conversazionale.

“Thoughts from previous model turns must not be added.” — Google model card

La domanda scomoda è questa: quante aziende che vogliono agenti AI in produzione hanno già processi maturi per distinguere risposta finale, ragionamento interno, log di audit e dati personali? La risposta implicita è semplice: poche, e spesso lo scoprono quando devono passare dal prototipo alla revisione legale.

Google stessa, nella model card, ricorda che Gemma 4 non è una knowledge base. Può generare risposte scorrette o superate, riflettere bias presenti nei dati e faticare con compiti aperti o ambigui. Su Bedrock il problema non sparisce: viene incapsulato in un servizio gestito. Per usarlo bene servono valutazioni interne, test su dataset propri, monitoraggio e guardrail applicativi.

Perché AWS sceglie un modello Google

Chi segue il settore da vicino sa che Bedrock non compete solo sulla qualità del singolo modello. AWS compete sulla posizione: vuole diventare il livello enterprise in cui modelli di Anthropic, Meta, Mistral, Amazon, OpenAI e Google diventano componenti intercambiabili dentro la stessa architettura cloud. L'arrivo di Gemma 4 rafforza questa tesi.

Google, intanto, usa Gemma come ponte tra ricerca, developer ecosystem e distribuzione. Il blog di lancio di Gemma 4 insiste sulla licenza Apache 2.0, sui 400 milioni di download della famiglia Gemma e su oltre 100.000 varianti costruite dalla community. Bedrock aggiunge una cosa diversa: non la libertà di scaricare pesi, ma la possibilità di comprarne l'inferenza come servizio cloud governato.

Questo incrocio dice molto sul momento attuale dell'AI. Google spinge Gemma in più direzioni: modelli locali, robotica, sicurezza mobile, Search agentica. Su AI Focus News lo abbiamo visto anche con Google DeepMind e Gemini Robotics in Europa, con le difese contro le chiamate deepfake Android e con il caso Google Zero AI Search. Bedrock aggiunge il tassello enterprise: il modello Google entra nella filiera cloud di AWS.

Il risultato non è una contraddizione. È il nuovo equilibrio competitivo. I grandi provider non vendono più solo modelli: vendono ambienti di esecuzione, policy, audit, regioni, quote e integrazioni. In questo schema, l'open-weight diventa una leva commerciale anche quando l'azienda cliente non scarica mai direttamente i pesi del modello.

Cosa cambia con Gemma 4 per aziende italiane

Per una PMI italiana già su AWS, Gemma 4 su Bedrock riduce l'attrito di sperimentazione. Un team può testare classificazione documentale, assistenti interni, analisi di immagini, supporto a sviluppatori e workflow agentici senza gestire GPU, container di inferenza o hosting dei pesi. Questo riguarda molte applicazioni AI già concrete: customer care, document intelligence, automazione software, controllo qualità e assistenza tecnica.

Per un'azienda regolata, il vantaggio potenziale sta nella separazione tra modello e infrastruttura. La documentazione AWS su data protection chiarisce che i model provider non hanno accesso ai log Bedrock né ai prompt e completions dei clienti. È un punto rilevante per banche, sanità, industria e pubblica amministrazione, ma richiede comunque valutazioni su dati inseriti, retention, logging, ruoli IAM e trasferimenti transfrontalieri.

Il rischio operativo è trattare Bedrock come scorciatoia. Un modello open-weight dentro AWS non produce da solo una policy AI. Serve decidere quali casi d'uso sono ammessi, quali dati possono entrare nei prompt, quali output richiedono controllo umano, quali metriche misurano qualità e quando interrompere una funzione agentica. Il tema tocca direttamente i settori AI più esposti: finanza, manifattura, sanità, legal tech e servizi professionali.

Per gli sviluppatori italiani, la notizia ha un valore pratico: Gemma 4 può diventare una scelta in più nella matrice costo-latenza-qualità, non un sostituto universale dei modelli frontier. 31B può servire ragionamento e coding più robusti; 26B-A4B può interessare carichi ad alto throughput; E2B può avere senso per classificazioni multimodali rapide. La scelta va fatta su benchmark interni, non sui comunicati.

Il numero da tenere a mente non è il conteggio dei parametri, ma la finestra di lavoro: secondo la model card Google, Gemma 4 arriva fino a 256K token di contesto nei modelli medi e grandi, abbastanza per trattare repository, contratti, manuali o dossier aziendali come un singolo problema operativo.

Fonti citate

Introducing Gemma 4 models on Amazon Bedrock , Amazon Web Services, 15 giugno 2026.
Gemma 4: Byte for byte, the most capable open models , Google, 2 aprile 2026.
Gemma 4 model card , Google AI for Developers, consultato il 16 giugno 2026.
Data protection in Amazon Bedrock , AWS Documentation, consultato il 16 giugno 2026.
Quotas for the bedrock-mantle endpoint , AWS Documentation, consultato il 16 giugno 2026.

Come funziona Gemma 4 su Amazon Bedrock

I limiti di Gemma 4 su Bedrock

Perché AWS sceglie un modello Google

Cosa cambia con Gemma 4 per aziende italiane

MENU