CATS: Decodifica Speculativa Auto-Adattativa per Inferenza LLM con Memoria Limitata

ai-technology · 2026-05-13

Un nuovo studio su arXiv (2605.11186) introduce CATS, acronimo di Cascaded Adaptive Tree Speculation. Questo framework è progettato per accelerare l'inferenza dei Large Language Models (LLM) su dispositivi con memoria limitata. Nei LLM, il processo di decodifica auto-regressiva è ostacolato dai limiti di memoria, poiché ogni passo di decodifica richiede l'accesso ai pesi del modello e ai risultati intermedi dalla memoria, come la High-Bandwidth Memory sulle GPU. La decodifica speculativa aiuta consentendo di verificare più token bozza contemporaneamente, condividendo il carico di chiamare il modello target. Tuttavia, i metodi esistenti presuppongono che ci sia abbastanza HBM sia per il modello target che per un modello bozza, il che non è pratico per dispositivi con poca DRAM. CATS risolve il problema utilizzando un approccio a cascata per la verifica e la correzione che si adatta ai vincoli di memoria.

Fatti principali

ID del paper arXiv: 2605.11186
Pubblicato su arXiv
Introduce il framework CATS
CATS sta per Cascaded Adaptive Tree Speculation
Affronta l'inferenza LLM limitata dalla memoria
Target: dispositivi con memoria limitata come piattaforme edge
La decodifica speculativa esistente presuppone una grande HBM
CATS utilizza verifica e correzione a cascata

CATS: Decodifica Speculativa Auto-Adattativa per Inferenza LLM con Memoria Limitata

Fatti principali

Entità

Istituzioni

Fonti