Fre-Res: Un Nuovo Framework di Compressione dei Token Video per MLLM

ai-technology · 2026-05-20

Un nuovo articolo di ricerca presenta Fre-Res, un sistema di compressione dei token video a doppio binario economicamente vantaggioso, volto a risolvere il conflitto tra accuratezza spaziale e copertura temporale nei Modelli Linguistici Multimodali Video (MLLM). Questo framework distingue tra dati spaziali e temporali mantenendo ancore spaziali sparse e ad alta fedeltà, mentre utilizza token compatti a frequenza residua per rappresentare i cambiamenti temporali densi. Impiega la DCT 1D temporale sui percorsi residui inter-frame nello spazio latente visivo, sfruttando la notevole concentrazione a bassa frequenza osservata. Per sincronizzare le dinamiche del dominio della frequenza con gli embedding visivi intrinseci, Fre-Res incorpora un Assorbitore Guidato Spazialmente che integra i dati temporali residui nei corrispondenti token di ancoraggio spaziale. L'approccio dimostra prestazioni elevate sia su benchmark di video brevi che di video lunghi con ragionamento dettagliato. L'articolo è disponibile su arXiv con ID 2605.16366.

Fatti principali

Fre-Res è un framework di compressione dei token video a doppio binario adattivo al budget.
Separa la fedeltà spaziale e la copertura temporale nei MLLM video.
Preserva ancore spaziali sparse e ad alta fedeltà.
Rappresenta l'evoluzione temporale tramite token compatti a frequenza residua.
Applica la DCT 1D temporale alle traiettorie residue inter-frame.
Utilizza un Assorbitore Guidato Spazialmente per iniettare informazioni temporali.
Ottiene risultati favorevoli su benchmark di video brevi e lunghi.
Articolo disponibile su arXiv con ID 2605.16366.

Fre-Res: Un Nuovo Framework di Compressione dei Token Video per MLLM

Fatti principali

Entità

Istituzioni

Fonti