OTT-Vid: Compressione di Token tramite Trasporto Ottimale per Video LLM
I ricercatori propongono OTT-Vid, un metodo di compressione dei token senza addestramento per modelli linguistici di grandi dimensioni per video (Video-LLM) che utilizza il trasporto ottimale per ridurre i token visivi tra i fotogrammi. Il metodo ha due fasi: il pruning spaziale identifica il contenuto rappresentativo per fotogramma, e il trasporto ottimale tra fotogrammi vicini stima la comprimibilità temporale con una massa di token non uniforme per proteggere i token semanticamente importanti. Ciò affronta il crescente costo di inferenza dei Video-LLM man mano che vengono scalati a video più lunghi. L'approccio migliora i metodi esistenti che si basano sulla somiglianza tra fotogrammi o su euristiche di segmentazione.
Fatti principali
- OTT-Vid è un metodo di compressione dei token senza addestramento per Video-LLM.
- Utilizza il trasporto ottimale tra fotogrammi vicini per la compressione temporale.
- Il pruning spaziale identifica il contenuto rappresentativo all'interno di ogni fotogramma.
- La massa di token non uniforme protegge i token semanticamente importanti.
- I metodi esistenti si basano sulla somiglianza tra fotogrammi o su euristiche di segmentazione.
- I Video-LLM vengono scalati a video più lunghi e complessi.
- Il costo di inferenza cresce a causa del grande volume di token visivi.
- Il metodo è proposto nell'articolo arXiv 2605.11803.
Entità
Istituzioni
- arXiv