ARTFEED — Contemporary Art Intelligence

I modelli AI Gemma 4 di Google ottengono un aumento di velocità 3x prevedendo token futuri

ai-technology · 2026-05-06

Google ha rilasciato i drafters Multi-Token Prediction (MTP) per i suoi modelli aperti Gemma 4, che utilizzano la decodifica speculativa per prevedere token futuri e ottenere una generazione fino a 3 volte più veloce. I modelli Gemma 4, lanciati questa primavera, sono basati sulla stessa tecnologia dell'AI Gemini di frontiera di Google, ma sono progettati per funzionare localmente sull'hardware dell'utente. Possono funzionare a piena precisione su un singolo acceleratore AI ad alta potenza o su una GPU consumer con quantizzazione. Google ha anche cambiato la licenza di Gemma 4 in Apache 2.0, più permissiva rispetto alle precedenti licenze personalizzate. MTP affronta i limiti hardware dell'AI locale accelerando la generazione di token.

Fatti principali

  • Google ha rilasciato i drafters Multi-Token Prediction (MTP) per Gemma 4.
  • MTP utilizza la decodifica speculativa per prevedere token futuri.
  • I modelli Gemma 4 possono raggiungere una generazione fino a 3 volte più veloce con MTP.
  • Gemma 4 è stato lanciato nella primavera del 2026.
  • Gemma 4 è basato sulla stessa tecnologia di Gemini AI.
  • Gemma 4 è progettato per funzionare localmente sull'hardware dell'utente.
  • Gemma 4 può funzionare a piena precisione su un singolo acceleratore AI ad alta potenza.
  • La licenza di Gemma 4 è Apache 2.0.
  • Gemma 4 può funzionare su una GPU consumer con quantizzazione.
  • MTP affronta i limiti hardware dell'AI locale.

Entità

Istituzioni

  • Google
  • Ars Technica

Fonti