VideoRouter: Doppio Routing Adattivo alle Query per una Comprensione Efficiente di Video Lunghi

ai-technology · 2026-05-09

I ricercatori hanno introdotto VideoRouter, un framework a doppio router che adatta le query e si basa su InternVL, progettato per una comprensione efficace di video lunghi. Questo sistema affronta i problemi di scalabilità dei grandi modelli video multimodali, ostacolati da lunghe sequenze di token visivi che comportano un uso significativo di memoria e latenza. VideoRouter incorpora un Router Semantico per determinare la strategia di allocazione (copertura temporale ampia o mantenimento adattivo dell'alta risoluzione) e un Router Immagine per valutare la rilevanza dei fotogrammi attraverso i primi strati LLM. Ciò consente una compressione aggressiva dei fotogrammi meno pertinenti, mantenendo i dettagli sulle prove essenziali. Per facilitare l'addestramento del router, il team ha creato Video-QTR-10K, un dataset mirato all'apprendimento delle politiche di allocazione. Questo metodo è adattivo alle query, a differenza delle strategie di compressione fisse, e cerca di migliorare l'allocazione delle prove quando i dati visivi sono distribuiti in modo non uniforme nel tempo.

Fatti principali

VideoRouter è un framework a doppio router adattivo alle query per la comprensione di video lunghi.
È basato su InternVL.
Il Router Semantico prevede la politica di allocazione dominante.
Il Router Immagine utilizza i primi strati LLM per valutare la rilevanza dei fotogrammi.
Il sistema consente una compressione aggressiva sui fotogrammi meno rilevanti.
Preserva i dettagli sui fotogrammi critici di prova.
Il dataset di addestramento è Video-QTR-10K.
L'approccio affronta i colli di bottiglia di scalabilità nei grandi modelli video multimodali.

Entità

—

Fonti

arXiv cs.AI — 2026-05-09