ST-SimDiff: Nuovo framework bilancia somiglianza e differenza per una comprensione video efficiente

ai-technology · 2026-05-23

I ricercatori hanno introdotto ST-SimDiff, un framework senza addestramento progettato per ridurre il carico computazionale nei Modelli Linguistici Multimodali (MLLM) che elaborano video lunghi. I metodi attuali potano o uniscono token visivi in base all'importanza o alla somiglianza, ma trascurano i cambiamenti e i punti di svolta nel contenuto video. ST-SimDiff affronta questo problema costruendo un grafo spazio-temporale dai token visivi per modellare associazioni complesse, quindi impiega una strategia di doppia selezione parallela: la selezione basata sulla somiglianza utilizza il rilevamento di comunità per trattenere token rappresentativi, mentre la selezione basata sulla differenza cattura eventi chiave. Il framework bilancia somiglianza e differenza spazio-temporale per una comprensione video efficiente.

Fatti principali

ST-SimDiff è un framework senza addestramento per una comprensione video efficiente con MLLM.
Affronta il carico computazionale derivante dai massicci token visivi nei video lunghi.
I metodi esistenti potano o uniscono token in base all'importanza o alla somiglianza.
ST-SimDiff considera sia la somiglianza (per la ridondanza) che la differenza (per gli eventi chiave).
Costruisce un grafo spazio-temporale dai token visivi.
Viene utilizzata una strategia di doppia selezione parallela: basata sulla somiglianza e sulla differenza.
La selezione basata sulla somiglianza usa il rilevamento di comunità per trattenere token rappresentativi.
Il framework è proposto nell'articolo arXiv 2605.22158.

ST-SimDiff: Nuovo framework bilancia somiglianza e differenza per una comprensione video efficiente

Fatti principali

Entità

Istituzioni

Fonti