I modelli AI Gemma 4 di Google ottengono un aumento di velocità 3x prevedendo token futuri
Google ha rilasciato i drafters Multi-Token Prediction (MTP) per i suoi modelli aperti Gemma 4, che utilizzano la decodifica speculativa per prevedere token futuri e ottenere una generazione fino a 3 volte più veloce. I modelli Gemma 4, lanciati questa primavera, sono basati sulla stessa tecnologia dell'AI Gemini di frontiera di Google, ma sono progettati per funzionare localmente sull'hardware dell'utente. Possono funzionare a piena precisione su un singolo acceleratore AI ad alta potenza o su una GPU consumer con quantizzazione. Google ha anche cambiato la licenza di Gemma 4 in Apache 2.0, più permissiva rispetto alle precedenti licenze personalizzate. MTP affronta i limiti hardware dell'AI locale accelerando la generazione di token.
Fatti principali
- Google ha rilasciato i drafters Multi-Token Prediction (MTP) per Gemma 4.
- MTP utilizza la decodifica speculativa per prevedere token futuri.
- I modelli Gemma 4 possono raggiungere una generazione fino a 3 volte più veloce con MTP.
- Gemma 4 è stato lanciato nella primavera del 2026.
- Gemma 4 è basato sulla stessa tecnologia di Gemini AI.
- Gemma 4 è progettato per funzionare localmente sull'hardware dell'utente.
- Gemma 4 può funzionare a piena precisione su un singolo acceleratore AI ad alta potenza.
- La licenza di Gemma 4 è Apache 2.0.
- Gemma 4 può funzionare su una GPU consumer con quantizzazione.
- MTP affronta i limiti hardware dell'AI locale.
Entità
Istituzioni
- Ars Technica