ARTFEED — Contemporary Art Intelligence

POLAR Framework Ottimizza la Cache degli Adattatori LoRA per il Servizio LLM Edge

ai-technology · 2026-04-22

Un nuovo articolo di ricerca introduce POLAR (Paging and Online Learning for Adapter Routing), un sistema progettato per ottimizzare la distribuzione edge dei grandi modelli linguistici utilizzando adattatori LoRA. Il framework affronta la sfida della capacità limitata di GPU/DRAM che può ospitare solo un piccolo sottoinsieme di adattatori in un dato momento. Quando le richieste richiedono adattatori non residenti, il caricamento dei pesi dalla memoria di archiviazione introduce ritardi di latenza significativi. POLAR formula questo come un problema di bandit contestuale a due scale temporali, combinando il routing LinUCB consapevole della cache con il controllo della cache basato su epoche. Il sistema gestisce la residenza degli adattatori su una scala temporale lenta mentre instrada le richieste su una scala temporale veloce, dove l'utilità dell'adattatore dipende da fattori contestuali sconosciuti. Questo approccio congiunto consente alla cache di influenzare i costi di esplorazione mentre il router determina quali adattatori ricevono feedback. La ricerca è stata pubblicata su arXiv con l'identificatore 2604.16583v1 e un tipo di annuncio incrociato.

Fatti principali

  • POLAR affronta la memorizzazione nella cache degli adattatori LoRA nel servizio LLM edge
  • La capacità limitata di GPU/DRAM restringe i sottoinsiemi di adattatori residenti
  • Gli adattatori non residenti richiedono il paging dei pesi dalla memoria di archiviazione
  • Il sistema formula la memorizzazione nella cache e il routing come bandit contestuale a due scale temporali
  • Combina il router LinUCB consapevole della cache con il controller della cache basato su epoche
  • La scala temporale lenta gestisce la residenza degli adattatori nella memoria veloce
  • La scala temporale veloce instrada le richieste agli adattatori dipendenti dal contesto
  • La ricerca è stata pubblicata su arXiv come 2604.16583v1

Entità

Istituzioni

  • arXiv

Fonti