I modelli AI Gemma 4 di Google ottengono un aumento di velocità 3x prevedendo token futuri

ai-technology · 2026-05-06

Google ha rilasciato i drafters Multi-Token Prediction (MTP) per i suoi modelli aperti Gemma 4, che utilizzano la decodifica speculativa per prevedere token futuri e ottenere una generazione fino a 3 volte più veloce. I modelli Gemma 4, lanciati questa primavera, sono basati sulla stessa tecnologia dell'AI Gemini di frontiera di Google, ma sono progettati per funzionare localmente sull'hardware dell'utente. Possono funzionare a piena precisione su un singolo acceleratore AI ad alta potenza o su una GPU consumer con quantizzazione. Google ha anche cambiato la licenza di Gemma 4 in Apache 2.0, più permissiva rispetto alle precedenti licenze personalizzate. MTP affronta i limiti hardware dell'AI locale accelerando la generazione di token.

Fatti principali

Google ha rilasciato i drafters Multi-Token Prediction (MTP) per Gemma 4.
MTP utilizza la decodifica speculativa per prevedere token futuri.
I modelli Gemma 4 possono raggiungere una generazione fino a 3 volte più veloce con MTP.
Gemma 4 è stato lanciato nella primavera del 2026.
Gemma 4 è basato sulla stessa tecnologia di Gemini AI.
Gemma 4 è progettato per funzionare localmente sull'hardware dell'utente.
Gemma 4 può funzionare a piena precisione su un singolo acceleratore AI ad alta potenza.
La licenza di Gemma 4 è Apache 2.0.
Gemma 4 può funzionare su una GPU consumer con quantizzazione.
MTP affronta i limiti hardware dell'AI locale.

I modelli AI Gemma 4 di Google ottengono un aumento di velocità 3x prevedendo token futuri

Fatti principali

Entità

Istituzioni

Fonti