CoVSpec: Co-inferenza efficiente dispositivo-edge per modelli visione-linguaggio

ai-technology · 2026-05-06

Un nuovo framework chiamato CoVSpec è stato introdotto dai ricercatori per migliorare la co-inferenza dispositivo-edge dei modelli visione-linguaggio (VLM) attraverso la decodifica speculativa. Questo metodo affronta le sfide dell'applicazione della decodifica speculativa ai VLM, in particolare l'elevato calcolo dei token visivi e il significativo overhead di comunicazione. CoVSpec presenta una nuova tecnica, senza necessità di training, per ridurre i token visivi sui dispositivi mobili valutando la rilevanza delle query, l'attività dei token e la dipendenza a basso rango. Ciò consente a un VLM bozza semplificato su un dispositivo mobile di lavorare in tandem con un VLM target più potente situato su un server edge, riducendo così i requisiti computazionali e di memoria. I dettagli di questa ricerca sono disponibili nell'articolo arXiv 2605.02218.

Fatti principali

CoVSpec è un framework per la co-inferenza dispositivo-edge dei VLM.
Utilizza la decodifica speculativa con un VLM bozza leggero sul mobile e un VLM target più grande sul server edge.
Un metodo di riduzione dei token visivi senza training elimina i token ridondanti.
La riduzione dei token considera la rilevanza delle query, l'attività dei token e la dipendenza a basso rango.
L'approccio affronta l'eccessivo calcolo dei token visivi e l'overhead di comunicazione.
L'articolo è disponibile su arXiv con ID 2605.02218.
Il lavoro mira a distribuire grandi VLM su dispositivi mobili.
Il metodo non richiede training aggiuntivo.

CoVSpec: Co-inferenza efficiente dispositivo-edge per modelli visione-linguaggio

Fatti principali

Entità

Istituzioni

Fonti