CR²: Routing Consapevole dei Costi per l'Inferenza di LLM su Dispositivi Edge

ai-technology · 2026-05-13

Esiste un nuovo framework chiamato CR², che sta per Cost-Aware Risk-Controlled Routing, progettato per facilitare il deployment di modelli linguistici di grandi dimensioni (LLM) su dispositivi mobili edge. Mentre gli LLM si spostano dai sistemi cloud centralizzati agli ambienti edge, è cruciale trovare un buon equilibrio tra latenza, consumo energetico e accuratezza. CR² funziona in due fasi: ha un gate di margine leggero sul dispositivo e un selettore di utilità lato edge per gestire le richieste differite. Il gate di margine utilizza embedding di query fissi e un peso di costo definito dall'utente per decidere se sia meglio eseguire le operazioni localmente. Questo approccio tiene conto dei costi variabili di latenza ed energia in contesti wireless, a differenza dei router più vecchi che ottimizzano principalmente per l'uso cloud centralizzato.

Fatti principali

CR² è un framework di routing dispositivo-edge a due fasi per l'inferenza di LLM.
Separa un gate di margine sul dispositivo da un selettore di utilità lato edge.
Il gate di margine utilizza embedding di query congelati e un peso di costo specificato dall'utente.
I router esistenti sono progettati per ambienti cloud centralizzati.
CR² cattura i costi variabili di latenza ed energia nei deployment edge wireless.
L'articolo formula il routing di LLM su edge mobile come un problema decisionale vincolato dal deployment e consapevole dei costi.
Gli LLM si stanno spostando dai cloud centralizzati agli ambienti edge mobili.
Un servizio efficiente deve bilanciare latenza, consumo energetico e accuratezza.

Entità

—

Fonti

arXiv cs.AI — 2026-05-13