ARTFEED — Contemporary Art Intelligence

OTT-Vid: Compressione di Token tramite Trasporto Ottimale per Video LLM

ai-technology · 2026-05-13

I ricercatori propongono OTT-Vid, un metodo di compressione dei token senza addestramento per modelli linguistici di grandi dimensioni per video (Video-LLM) che utilizza il trasporto ottimale per ridurre i token visivi tra i fotogrammi. Il metodo ha due fasi: il pruning spaziale identifica il contenuto rappresentativo per fotogramma, e il trasporto ottimale tra fotogrammi vicini stima la comprimibilità temporale con una massa di token non uniforme per proteggere i token semanticamente importanti. Ciò affronta il crescente costo di inferenza dei Video-LLM man mano che vengono scalati a video più lunghi. L'approccio migliora i metodi esistenti che si basano sulla somiglianza tra fotogrammi o su euristiche di segmentazione.

Fatti principali

  • OTT-Vid è un metodo di compressione dei token senza addestramento per Video-LLM.
  • Utilizza il trasporto ottimale tra fotogrammi vicini per la compressione temporale.
  • Il pruning spaziale identifica il contenuto rappresentativo all'interno di ogni fotogramma.
  • La massa di token non uniforme protegge i token semanticamente importanti.
  • I metodi esistenti si basano sulla somiglianza tra fotogrammi o su euristiche di segmentazione.
  • I Video-LLM vengono scalati a video più lunghi e complessi.
  • Il costo di inferenza cresce a causa del grande volume di token visivi.
  • Il metodo è proposto nell'articolo arXiv 2605.11803.

Entità

Istituzioni

  • arXiv

Fonti