Fre-Res: Un Nuovo Framework di Compressione dei Token Video per MLLM
Un nuovo articolo di ricerca presenta Fre-Res, un sistema di compressione dei token video a doppio binario economicamente vantaggioso, volto a risolvere il conflitto tra accuratezza spaziale e copertura temporale nei Modelli Linguistici Multimodali Video (MLLM). Questo framework distingue tra dati spaziali e temporali mantenendo ancore spaziali sparse e ad alta fedeltà, mentre utilizza token compatti a frequenza residua per rappresentare i cambiamenti temporali densi. Impiega la DCT 1D temporale sui percorsi residui inter-frame nello spazio latente visivo, sfruttando la notevole concentrazione a bassa frequenza osservata. Per sincronizzare le dinamiche del dominio della frequenza con gli embedding visivi intrinseci, Fre-Res incorpora un Assorbitore Guidato Spazialmente che integra i dati temporali residui nei corrispondenti token di ancoraggio spaziale. L'approccio dimostra prestazioni elevate sia su benchmark di video brevi che di video lunghi con ragionamento dettagliato. L'articolo è disponibile su arXiv con ID 2605.16366.
Fatti principali
- Fre-Res è un framework di compressione dei token video a doppio binario adattivo al budget.
- Separa la fedeltà spaziale e la copertura temporale nei MLLM video.
- Preserva ancore spaziali sparse e ad alta fedeltà.
- Rappresenta l'evoluzione temporale tramite token compatti a frequenza residua.
- Applica la DCT 1D temporale alle traiettorie residue inter-frame.
- Utilizza un Assorbitore Guidato Spazialmente per iniettare informazioni temporali.
- Ottiene risultati favorevoli su benchmark di video brevi e lunghi.
- Articolo disponibile su arXiv con ID 2605.16366.
Entità
Istituzioni
- arXiv