VideoRouter: Doppio Routing Adattivo alle Query per una Comprensione Efficiente di Video Lunghi
I ricercatori hanno introdotto VideoRouter, un framework a doppio router che adatta le query e si basa su InternVL, progettato per una comprensione efficace di video lunghi. Questo sistema affronta i problemi di scalabilità dei grandi modelli video multimodali, ostacolati da lunghe sequenze di token visivi che comportano un uso significativo di memoria e latenza. VideoRouter incorpora un Router Semantico per determinare la strategia di allocazione (copertura temporale ampia o mantenimento adattivo dell'alta risoluzione) e un Router Immagine per valutare la rilevanza dei fotogrammi attraverso i primi strati LLM. Ciò consente una compressione aggressiva dei fotogrammi meno pertinenti, mantenendo i dettagli sulle prove essenziali. Per facilitare l'addestramento del router, il team ha creato Video-QTR-10K, un dataset mirato all'apprendimento delle politiche di allocazione. Questo metodo è adattivo alle query, a differenza delle strategie di compressione fisse, e cerca di migliorare l'allocazione delle prove quando i dati visivi sono distribuiti in modo non uniforme nel tempo.
Fatti principali
- VideoRouter è un framework a doppio router adattivo alle query per la comprensione di video lunghi.
- È basato su InternVL.
- Il Router Semantico prevede la politica di allocazione dominante.
- Il Router Immagine utilizza i primi strati LLM per valutare la rilevanza dei fotogrammi.
- Il sistema consente una compressione aggressiva sui fotogrammi meno rilevanti.
- Preserva i dettagli sui fotogrammi critici di prova.
- Il dataset di addestramento è Video-QTR-10K.
- L'approccio affronta i colli di bottiglia di scalabilità nei grandi modelli video multimodali.
Entità
—