N-vium: Trasformatore Mixture-of-Exits Accelera la Velocità di Inferenza
L'architettura trasformatore recentemente introdotta, N-vium, descritta in arXiv:2605.13190, migliora la generazione autoregressiva consentendo il calcolo parallelo a diverse profondità. A differenza delle tecniche tradizionali che sacrificano la qualità per ridurre i FLOP per token, N-vium aumenta i FLOP effettivi al secondo attraverso una strategia mixture-of-exits. Incorpora teste di predizione a varie profondità e formula la distribuzione del token successivo come una miscela appresa con routing adattivo per token. Questo approccio estende il modello trasformatore convenzionale, che può tornare alla sua forma standard quando il routing assegna massa zero alle teste intermedie. Con un campionamento preciso e cache KV ripristinate posticipando i calcoli degli strati superiori, il più grande modello preaddestrato, con 1,5 miliardi di parametri, raggiunge un'accelerazione del 57,9% nel tempo a muro rispetto a una baseline con parametri corrispondenti.
Fatti principali
- 1. N-vium è un trasformatore mixture-of-exits per generazione esatta accelerata.
- 2. Parallelizza parzialmente il calcolo in profondità su hardware standard.
- 3. Aumenta i FLOP effettivi al secondo anziché minimizzare il calcolo per token.
- 4. Le teste di predizione sono attaccate a più profondità.
- 5. La distribuzione del token successivo è una miscela appresa con routing adattivo per token.
- 6. La formulazione generalizza strettamente il trasformatore standard.
- 7. Il campionamento dalla miscela è esatto.
- 8. Il modello più grande raggiunge un'accelerazione del 57,9% nel tempo a muro con 1,5 miliardi di parametri.
Entità
—