ARTFEED — Contemporary Art Intelligence

Fre-Res: Un Nuovo Framework di Compressione dei Token Video per MLLM

ai-technology · 2026-05-20

Un nuovo articolo di ricerca presenta Fre-Res, un sistema di compressione dei token video a doppio binario economicamente vantaggioso, volto a risolvere il conflitto tra accuratezza spaziale e copertura temporale nei Modelli Linguistici Multimodali Video (MLLM). Questo framework distingue tra dati spaziali e temporali mantenendo ancore spaziali sparse e ad alta fedeltà, mentre utilizza token compatti a frequenza residua per rappresentare i cambiamenti temporali densi. Impiega la DCT 1D temporale sui percorsi residui inter-frame nello spazio latente visivo, sfruttando la notevole concentrazione a bassa frequenza osservata. Per sincronizzare le dinamiche del dominio della frequenza con gli embedding visivi intrinseci, Fre-Res incorpora un Assorbitore Guidato Spazialmente che integra i dati temporali residui nei corrispondenti token di ancoraggio spaziale. L'approccio dimostra prestazioni elevate sia su benchmark di video brevi che di video lunghi con ragionamento dettagliato. L'articolo è disponibile su arXiv con ID 2605.16366.

Fatti principali

  • Fre-Res è un framework di compressione dei token video a doppio binario adattivo al budget.
  • Separa la fedeltà spaziale e la copertura temporale nei MLLM video.
  • Preserva ancore spaziali sparse e ad alta fedeltà.
  • Rappresenta l'evoluzione temporale tramite token compatti a frequenza residua.
  • Applica la DCT 1D temporale alle traiettorie residue inter-frame.
  • Utilizza un Assorbitore Guidato Spazialmente per iniettare informazioni temporali.
  • Ottiene risultati favorevoli su benchmark di video brevi e lunghi.
  • Articolo disponibile su arXiv con ID 2605.16366.

Entità

Istituzioni

  • arXiv

Fonti