L'inferenza a sottospazio gated accelera i modelli transformer fino a 10,5 volte

ai-technology · 2026-05-07

Esiste un metodo innovativo chiamato Inferenza a Sottospazio Gated che accelera il modo in cui i modelli linguistici transformer elaborano le informazioni. Sfrutta il basso rango effettivo dei manifold di attivazione dei token. In pratica, divide ogni vettore di attivazione in due parti: una componente di sottospazio e un residuo, utilizzando un'immagine di peso a basso rango per il sottospazio per ridurre la larghezza di banda della memoria. Ogni token ha un gate che decide se calcolare la correzione residua, mantenendo la distribuzione di output entro un certo intervallo. Testato su modelli come GPT-2 124M, GPT-J 6B e OPT 6.7B utilizzando AMD MI300X, ha mostrato aumenti di velocità da 3,0x a 10,5x, con impressionanti rapporti di perplexity inferiori a 1,00 e oltre il 98% di accordo sul token top-1. Non richiede riaddestramento o modifiche architetturali, operando a k=256.

Fatti principali

Il metodo sfrutta il basso rango effettivo dei manifold di attivazione dei token.
Decompone i vettori di attivazione in componenti di sottospazio e residuo.
Memorizza nella cache l'immagine di peso a basso rango per il sottospazio per ridurre la larghezza di banda della memoria.
Un gate per token controlla il calcolo della correzione residua.
Validato sui modelli GPT-2 124M, GPT-J 6B, OPT 6.7B.
Testato su hardware AMD MI300X.
Raggiunge accelerazioni da 3,0x a 10,5x nelle letture dei pesi dei layer lineari.
Rapporti di perplexity inferiori a 1,00 e accordo sul token top-1 superiore al 98%.
Non richiede riaddestramento, modifiche architetturali o approssimazione dell'attenzione.
Il punto operativo utilizza k=256.

L'inferenza a sottospazio gated accelera i modelli transformer fino a 10,5 volte

Fatti principali

Entità

Istituzioni

Fonti