Gemma 4 12B: Google e il suo modello multimodale unificato

Gemma 4 12B porta testo, immagini e audio sui laptop con 16 GB di memoria. Come funziona e quali limiti incontra, rilasciato sotto licenza Apache 2.0.

C. Petrolillo Redazione
5 min di lettura
4 Giugno 2026
Primo piano di un robot bianco con visore nero e occhi azzurri luminosi, usato per rappresentare l'AI locale di Gemma 4 12B.
Immagine illustrativa di un piccolo robot che rappresenta l'AI multimodale eseguibile localmente. Il soggetto non raffigura Gemma 4 12B né un prodotto ufficiale Google.

Google DeepMind ha lanciato Gemma 4 12B, un modello multimodale da 11,95 miliardi di parametri con pesi scaricabili, progettato per elaborare testo, immagini e audio su laptop con 16 GB di VRAM o memoria unificata.

Per sviluppatori, professionisti e aziende, il dato rilevante è il luogo in cui il modello può lavorare. Chi usa un sistema capace di analizzare documenti, ascoltare audio e interpretare immagini senza dipendere sempre da un servizio cloud può sperimentare con dati sensibili, ridurre i costi delle chiamate API e mantenere il controllo sull'infrastruttura.

Gemma 4 12B porta la multimodalità sul laptop

Gemma 4 12B occupa una posizione intermedia nella famiglia di modelli aperti di Google. Colma lo spazio tra E4B, pensato per dispositivi edge, e il modello Mixture of Experts da 26 miliardi di parametri, che attiva solo una parte della rete durante ogni elaborazione. Nel post di lancio, Google afferma che l'intera famiglia Gemma 4 ha superato 150 milioni di download.

La novità specifica del 12B è l'unione di capacità che finora richiedevano compromessi più netti. Il modello supporta input testuali, visivi e audio, una finestra di contesto fino a 256.000 token e oltre 140 lingue nel pre-addestramento. I pesi sono disponibili con licenza Apache 2.0 e possono essere eseguiti tramite strumenti come Ollama, LM Studio, llama.cpp, MLX e LiteRT-LM.

“Small enough to run locally with just 16GB of VRAM or unified memory.” (Google DeepMind)

Quel “16 GB” va letto con precisione: Google parla di VRAM dedicata o memoria unificata, tipica dei Mac con Apple Silicon e di alcuni sistemi integrati. Non significa che qualsiasi portatile aziendale con 16 GB di RAM possa eseguire il modello con prestazioni utili.

Come funziona l'architettura encoder-free

Nei modelli multimodali tradizionali, componenti separati trasformano immagini e audio in rappresentazioni che il modello linguistico può elaborare. Questi encoder aggiungono parametri, occupano memoria e introducono latenza prima che inizi il ragionamento linguistico.

Gemma 4 12B usa invece un'architettura encoder-free. La guida tecnica per sviluppatori spiega che, per le immagini, un modulo da 35 milioni di parametri proietta porzioni da 48 per 48 pixel nello spazio interno del modello, sostituendo i 27 livelli del vision transformer usato dagli altri Gemma di dimensioni medie. Per l'audio, il sistema suddivide il segnale a 16 kHz in intervalli da 40 millisecondi e li proietta nello stesso spazio dei token testuali, senza un encoder audio separato.

Testo, immagini e audio confluiscono così nello stesso decoder-only transformer, il componente che genera la risposta. Questa scelta consente anche di aggiornare l'intero percorso multimodale in un'unica fase di fine-tuning, cioè l'adattamento del modello a compiti specifici, invece di coordinare modifiche distinte per ciascun encoder.

Benchmark e limiti di Gemma 4 12B

La model card ufficiale ridimensiona l'idea che il 12B sostituisca sempre modelli più grandi. Nei test pubblicati da Google raggiunge il 77,2% su MMLU Pro, il 72% su LiveCodeBench v6 e il 77,5% su AIME 2026 senza strumenti. Il Gemma 4 26B A4B ottiene rispettivamente 82,6%, 77,1% e 88,3%.

Il divario cambia in base al compito. Su Tau2, benchmark dedicato agli agenti, il 12B arriva al 69%, poco sopra il 68,2% del 26B A4B. I numeri indicano un modello competitivo per dimensioni e consumo di memoria, senza dimostrare una superiorità generale. Mancano confronti indipendenti su velocità, qualità in italiano e prestazioni su configurazioni hardware comuni.

Anche la multimodalità ha confini concreti. La documentazione limita l'audio a 30 secondi e il video a 60 secondi, assumendo un fotogramma al secondo. Il modello genera testo, non audio o immagini, e Google avverte che può produrre informazioni errate o superate. L'esecuzione locale riduce il trasferimento di dati verso servizi esterni, ma non risolve da sola sicurezza, autorizzazioni e controllo degli output.

Come scaricare e testare Gemma 4 12B

Per il primo test locale, installate Ollama e avviate la variante corretta:

ollama run gemma4:12b

Il comando ollama run gemma4 usa invece l'alias latest, che al momento corrisponde a E4B. Da Python:

from ollama import chat
response = chat(
model="gemma4:12b",
messages=[{"role": "user", "content": "Ciao!"}],
)
print(response.message.content)

Chi vuole accedere direttamente ai pesi su Hugging Face può installare Transformers e caricare la versione instruction-tuned, pensata per seguire richieste e conversazioni:

pip install -U "transformers[torch]" accelerate
from transformers import AutoProcessor, AutoModelForMultimodalLM
model_id = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForMultimodalLM.from_pretrained(
model_id, dtype="auto", device_map="auto"
)

Cosa cambia per sviluppatori e aziende italiane

Per chi sviluppa in Italia, Gemma 4 12B rende più accessibile una categoria di prototipi finora legata a infrastrutture cloud o workstation costose: analisi locale di documenti e schermate, trascrizione di brevi registrazioni, assistenti vocali, strumenti di supporto al coding e agenti capaci di usare funzioni esterne.

Il vantaggio pratico riguarda soprattutto i test iniziali. Una software house può valutare un assistente multimodale senza costruire subito un'infrastruttura remota; un'azienda può verificare quali attività funzionano con elaborazione locale prima di scegliere un servizio gestito. La licenza Apache 2.0 consente inoltre personalizzazione e integrazione commerciale, entro gli obblighi previsti dalla licenza e dalle policy d'uso.

Il primo controllo da fare non è sul punteggio più alto della tabella, ma sull'hardware già disponibile e sul compito reale. Se un portatile con memoria unificata sufficiente riesce a gestire documenti, immagini o brevi audio con qualità adeguata, Gemma 4 12B può ridurre la dipendenza dal cloud. Se servono video lunghi, output multimodali o accuratezza verificata in italiano, i limiti pubblicati da Google indicano già dove il modello non basta.

Fonti citate

  1. Introducing Gemma 4 12B: a unified, encoder-free multimodal model , Google DeepMind, 3 giugno 2026.
  2. Gemma 4 12B: The Developer Guide , Google Developers Blog, 3 giugno 2026.
  3. Gemma 4 model card , Google AI for Developers, consultata il 4 giugno 2026.
  4. google/gemma-4-12B , Google DeepMind e Hugging Face, 3 giugno 2026.
  5. Gemma 4 , Ollama, consultata il 4 giugno 2026.