Fusione Temporale di Token: Compressione Senza Addestramento per Modelli Video-Linguaggio

ai-technology · 2026-05-11

Un nuovo metodo chiamato Fusione Temporale di Token (TTF) affronta gli elevati costi di inferenza dei modelli video-linguaggio (VLM) causati dal grande numero di token visivi. Ad esempio, 32 fotogrammi a risoluzione 448x448 producono oltre 8.000 token visivi in Qwen3-VL, rendendo il prefill del LLM un collo di bottiglia. Le tecniche di compressione esistenti si basano su similarità globale o guida dell'attenzione, che aggiungono overhead. TTF è un framework plug-and-play senza addestramento che comprime i token prima che entrino nel LLM sfruttando la ridondanza temporale. Seleziona un fotogramma di ancoraggio ed esegue ricerche di similarità in finestre locali (es. 3x3) sui fotogrammi successivi, fondendo i token al di sopra di una soglia. La sequenza compressa mantiene la coerenza posizionale attraverso il riallineamento delle coordinate, integrandosi perfettamente con le pipeline VLM esistenti. L'articolo riporta risultati su Qwen3-VL-8B con una soglia di 0,70.

Fatti principali

TTF è un metodo di compressione dei token senza addestramento per modelli video-linguaggio.
Riduce il numero di token visivi sfruttando la ridondanza temporale tra i fotogrammi.
Il metodo seleziona un fotogramma di ancoraggio e fonde token simili tramite ricerca in finestre locali.
TTF mantiene la coerenza posizionale attraverso il riallineamento delle coordinate.
È progettato come modulo plug-and-play per pipeline VLM esistenti.
L'articolo utilizza Qwen3-VL-8B con una soglia di 0,70 per gli esperimenti.
32 fotogrammi a risoluzione 448x448 producono oltre 8.000 token visivi in Qwen3-VL.
TTF affronta il collo di bottiglia del prefill del LLM nell'elaborazione video.

Entità

—

Fonti

arXiv cs.AI — 2026-05-11