CATS: Decodifica Speculativa Auto-Adattativa per Inferenza LLM con Memoria Limitata
Un nuovo studio su arXiv (2605.11186) introduce CATS, acronimo di Cascaded Adaptive Tree Speculation. Questo framework è progettato per accelerare l'inferenza dei Large Language Models (LLM) su dispositivi con memoria limitata. Nei LLM, il processo di decodifica auto-regressiva è ostacolato dai limiti di memoria, poiché ogni passo di decodifica richiede l'accesso ai pesi del modello e ai risultati intermedi dalla memoria, come la High-Bandwidth Memory sulle GPU. La decodifica speculativa aiuta consentendo di verificare più token bozza contemporaneamente, condividendo il carico di chiamare il modello target. Tuttavia, i metodi esistenti presuppongono che ci sia abbastanza HBM sia per il modello target che per un modello bozza, il che non è pratico per dispositivi con poca DRAM. CATS risolve il problema utilizzando un approccio a cascata per la verifica e la correzione che si adatta ai vincoli di memoria.
Fatti principali
- ID del paper arXiv: 2605.11186
- Pubblicato su arXiv
- Introduce il framework CATS
- CATS sta per Cascaded Adaptive Tree Speculation
- Affronta l'inferenza LLM limitata dalla memoria
- Target: dispositivi con memoria limitata come piattaforme edge
- La decodifica speculativa esistente presuppone una grande HBM
- CATS utilizza verifica e correzione a cascata
Entità
Istituzioni
- arXiv