EvoSpec: Adattamento del Vocabolario in Tempo Reale per la Decodifica Speculativa
EvoSpec è un nuovo framework che consente l'evoluzione in tempo reale dei modelli draft nella decodifica speculativa per modelli linguistici di grandi dimensioni. Affronta il collo di bottiglia dei layer di proiezione di output all'aumentare delle dimensioni del vocabolario, che i metodi di pruning statico non riescono a gestire in domini specializzati o scenari di cambio di argomento. EvoSpec utilizza un meccanismo context-aware per recuperare token critici a coda lunga tramite indicizzazione semantica e statistica efficiente, e impiega una strategia di allineamento online leggera con curriculum learning per minimizzare il divario distribuzionale tra modello draft e target. L'articolo è pubblicato su arXiv con ID 2605.27390.
Fatti principali
- EvoSpec consente l'evoluzione in tempo reale dei modelli draft attraverso l'adattamento dinamico del vocabolario e dei parametri.
- Affronta il collo di bottiglia dei layer di proiezione di output nella decodifica speculativa all'aumentare delle dimensioni del vocabolario.
- I metodi di pruning statico subiscono cali nel tasso di accettazione in domini specializzati o scenari di cambio di argomento.
- EvoSpec utilizza un meccanismo context-aware per recuperare token critici a coda lunga tramite indicizzazione semantica e statistica.
- Impiega una strategia di allineamento online leggera che utilizza curriculum learning.
- L'obiettivo è minimizzare il divario distribuzionale tra modello draft e target.
- L'articolo è pubblicato su arXiv con ID 2605.27390.
- Il tipo di annuncio è cross.
Entità
Istituzioni
- arXiv