OTT-Vid: Compressione di Token tramite Trasporto Ottimale per Video LLM

ai-technology · 2026-05-13

I ricercatori propongono OTT-Vid, un metodo di compressione dei token senza addestramento per modelli linguistici di grandi dimensioni per video (Video-LLM) che utilizza il trasporto ottimale per ridurre i token visivi tra i fotogrammi. Il metodo ha due fasi: il pruning spaziale identifica il contenuto rappresentativo per fotogramma, e il trasporto ottimale tra fotogrammi vicini stima la comprimibilità temporale con una massa di token non uniforme per proteggere i token semanticamente importanti. Ciò affronta il crescente costo di inferenza dei Video-LLM man mano che vengono scalati a video più lunghi. L'approccio migliora i metodi esistenti che si basano sulla somiglianza tra fotogrammi o su euristiche di segmentazione.

Fatti principali

OTT-Vid è un metodo di compressione dei token senza addestramento per Video-LLM.
Utilizza il trasporto ottimale tra fotogrammi vicini per la compressione temporale.
Il pruning spaziale identifica il contenuto rappresentativo all'interno di ogni fotogramma.
La massa di token non uniforme protegge i token semanticamente importanti.
I metodi esistenti si basano sulla somiglianza tra fotogrammi o su euristiche di segmentazione.
I Video-LLM vengono scalati a video più lunghi e complessi.
Il costo di inferenza cresce a causa del grande volume di token visivi.
Il metodo è proposto nell'articolo arXiv 2605.11803.

OTT-Vid: Compressione di Token tramite Trasporto Ottimale per Video LLM

Fatti principali

Entità

Istituzioni

Fonti