CoVSpec: Co-inferenza efficiente dispositivo-edge per modelli visione-linguaggio
Un nuovo framework chiamato CoVSpec è stato introdotto dai ricercatori per migliorare la co-inferenza dispositivo-edge dei modelli visione-linguaggio (VLM) attraverso la decodifica speculativa. Questo metodo affronta le sfide dell'applicazione della decodifica speculativa ai VLM, in particolare l'elevato calcolo dei token visivi e il significativo overhead di comunicazione. CoVSpec presenta una nuova tecnica, senza necessità di training, per ridurre i token visivi sui dispositivi mobili valutando la rilevanza delle query, l'attività dei token e la dipendenza a basso rango. Ciò consente a un VLM bozza semplificato su un dispositivo mobile di lavorare in tandem con un VLM target più potente situato su un server edge, riducendo così i requisiti computazionali e di memoria. I dettagli di questa ricerca sono disponibili nell'articolo arXiv 2605.02218.
Fatti principali
- CoVSpec è un framework per la co-inferenza dispositivo-edge dei VLM.
- Utilizza la decodifica speculativa con un VLM bozza leggero sul mobile e un VLM target più grande sul server edge.
- Un metodo di riduzione dei token visivi senza training elimina i token ridondanti.
- La riduzione dei token considera la rilevanza delle query, l'attività dei token e la dipendenza a basso rango.
- L'approccio affronta l'eccessivo calcolo dei token visivi e l'overhead di comunicazione.
- L'articolo è disponibile su arXiv con ID 2605.02218.
- Il lavoro mira a distribuire grandi VLM su dispositivi mobili.
- Il metodo non richiede training aggiuntivo.
Entità
Istituzioni
- arXiv