Sistema FLAME Introdotto per la Stima della Latenza nell'AI Mobile Edge di Fronte alle Sfide del DVFS
Un nuovo sistema denominato FLAME è stato introdotto per affrontare il problema della stima accurata della latenza di inferenza per applicazioni mobile edge sensibili al tempo. Le tecniche di profilazione statica spesso risultano insufficienti a causa del Dynamic Voltage and Frequency Scaling (DVFS), che porta a variazioni nella latenza di inferenza al variare delle frequenze della CPU e della GPU. Sebbene una profilazione completa su tutte le combinazioni di frequenza sia teoricamente fattibile, diventa eccessivamente costosa, in particolare per i nuovi Small Language Model (SLM) dove le lunghezze variabili del contesto possono comportare durate di profilazione di diversi giorni. I metodi analitici di scaling di base sono inadeguati nel prevedere queste variazioni a causa delle intricate interazioni asincrone tra i lanci dei kernel della CPU e le operazioni della GPU. Una stima accurata della latenza è fondamentale per i dispositivi mobile edge per determinare i margini di latenza rispetto alle scadenze, consentendo un compromesso tra prestazioni migliorate del modello ed efficienza delle risorse. Questa ricerca è stata pubblicata su arXiv con l'identificatore 2604.15357v1 e ha un tipo di annuncio incrociato.
Fatti principali
- Sistema FLAME introdotto per la stima della latenza di inferenza nel mobile edge
- Il Dynamic Voltage and Frequency Scaling (DVFS) invalida la profilazione statica tradizionale
- La latenza di inferenza fluttua con le frequenze variabili della CPU e della GPU
- La profilazione estensiva su combinazioni di frequenza è proibitivamente costosa
- Gli Small Language Model (SLM) con lunghezze di contesto variabili possono richiedere giorni di profilazione
- Lo scaling analitico semplice fallisce a causa dell'accoppiamento asincrono CPU-GPU
- La stima precisa della latenza è cruciale per applicazioni mobile edge critiche nel tempo
- Ricerca annunciata su arXiv con l'identificatore 2604.15357v1
Entità
Istituzioni
- arXiv