CR²: Routing Consapevole dei Costi per l'Inferenza di LLM su Dispositivi Edge
Esiste un nuovo framework chiamato CR², che sta per Cost-Aware Risk-Controlled Routing, progettato per facilitare il deployment di modelli linguistici di grandi dimensioni (LLM) su dispositivi mobili edge. Mentre gli LLM si spostano dai sistemi cloud centralizzati agli ambienti edge, è cruciale trovare un buon equilibrio tra latenza, consumo energetico e accuratezza. CR² funziona in due fasi: ha un gate di margine leggero sul dispositivo e un selettore di utilità lato edge per gestire le richieste differite. Il gate di margine utilizza embedding di query fissi e un peso di costo definito dall'utente per decidere se sia meglio eseguire le operazioni localmente. Questo approccio tiene conto dei costi variabili di latenza ed energia in contesti wireless, a differenza dei router più vecchi che ottimizzano principalmente per l'uso cloud centralizzato.
Fatti principali
- CR² è un framework di routing dispositivo-edge a due fasi per l'inferenza di LLM.
- Separa un gate di margine sul dispositivo da un selettore di utilità lato edge.
- Il gate di margine utilizza embedding di query congelati e un peso di costo specificato dall'utente.
- I router esistenti sono progettati per ambienti cloud centralizzati.
- CR² cattura i costi variabili di latenza ed energia nei deployment edge wireless.
- L'articolo formula il routing di LLM su edge mobile come un problema decisionale vincolato dal deployment e consapevole dei costi.
- Gli LLM si stanno spostando dai cloud centralizzati agli ambienti edge mobili.
- Un servizio efficiente deve bilanciare latenza, consumo energetico e accuratezza.
Entità
—