ST-SimDiff: Nuovo framework bilancia somiglianza e differenza per una comprensione video efficiente
I ricercatori hanno introdotto ST-SimDiff, un framework senza addestramento progettato per ridurre il carico computazionale nei Modelli Linguistici Multimodali (MLLM) che elaborano video lunghi. I metodi attuali potano o uniscono token visivi in base all'importanza o alla somiglianza, ma trascurano i cambiamenti e i punti di svolta nel contenuto video. ST-SimDiff affronta questo problema costruendo un grafo spazio-temporale dai token visivi per modellare associazioni complesse, quindi impiega una strategia di doppia selezione parallela: la selezione basata sulla somiglianza utilizza il rilevamento di comunità per trattenere token rappresentativi, mentre la selezione basata sulla differenza cattura eventi chiave. Il framework bilancia somiglianza e differenza spazio-temporale per una comprensione video efficiente.
Fatti principali
- ST-SimDiff è un framework senza addestramento per una comprensione video efficiente con MLLM.
- Affronta il carico computazionale derivante dai massicci token visivi nei video lunghi.
- I metodi esistenti potano o uniscono token in base all'importanza o alla somiglianza.
- ST-SimDiff considera sia la somiglianza (per la ridondanza) che la differenza (per gli eventi chiave).
- Costruisce un grafo spazio-temporale dai token visivi.
- Viene utilizzata una strategia di doppia selezione parallela: basata sulla somiglianza e sulla differenza.
- La selezione basata sulla somiglianza usa il rilevamento di comunità per trattenere token rappresentativi.
- Il framework è proposto nell'articolo arXiv 2605.22158.
Entità
Istituzioni
- arXiv