ARTFEED — Contemporary Art Intelligence

CATS: Decodifica Speculativa Auto-Adattativa per Inferenza LLM con Memoria Limitata

ai-technology · 2026-05-13

Un nuovo studio su arXiv (2605.11186) introduce CATS, acronimo di Cascaded Adaptive Tree Speculation. Questo framework è progettato per accelerare l'inferenza dei Large Language Models (LLM) su dispositivi con memoria limitata. Nei LLM, il processo di decodifica auto-regressiva è ostacolato dai limiti di memoria, poiché ogni passo di decodifica richiede l'accesso ai pesi del modello e ai risultati intermedi dalla memoria, come la High-Bandwidth Memory sulle GPU. La decodifica speculativa aiuta consentendo di verificare più token bozza contemporaneamente, condividendo il carico di chiamare il modello target. Tuttavia, i metodi esistenti presuppongono che ci sia abbastanza HBM sia per il modello target che per un modello bozza, il che non è pratico per dispositivi con poca DRAM. CATS risolve il problema utilizzando un approccio a cascata per la verifica e la correzione che si adatta ai vincoli di memoria.

Fatti principali

  • ID del paper arXiv: 2605.11186
  • Pubblicato su arXiv
  • Introduce il framework CATS
  • CATS sta per Cascaded Adaptive Tree Speculation
  • Affronta l'inferenza LLM limitata dalla memoria
  • Target: dispositivi con memoria limitata come piattaforme edge
  • La decodifica speculativa esistente presuppone una grande HBM
  • CATS utilizza verifica e correzione a cascata

Entità

Istituzioni

  • arXiv

Fonti