ARTFEED — Contemporary Art Intelligence

VideoRouter: Doppio Routing Adattivo alle Query per una Comprensione Efficiente di Video Lunghi

ai-technology · 2026-05-09

I ricercatori hanno introdotto VideoRouter, un framework a doppio router che adatta le query e si basa su InternVL, progettato per una comprensione efficace di video lunghi. Questo sistema affronta i problemi di scalabilità dei grandi modelli video multimodali, ostacolati da lunghe sequenze di token visivi che comportano un uso significativo di memoria e latenza. VideoRouter incorpora un Router Semantico per determinare la strategia di allocazione (copertura temporale ampia o mantenimento adattivo dell'alta risoluzione) e un Router Immagine per valutare la rilevanza dei fotogrammi attraverso i primi strati LLM. Ciò consente una compressione aggressiva dei fotogrammi meno pertinenti, mantenendo i dettagli sulle prove essenziali. Per facilitare l'addestramento del router, il team ha creato Video-QTR-10K, un dataset mirato all'apprendimento delle politiche di allocazione. Questo metodo è adattivo alle query, a differenza delle strategie di compressione fisse, e cerca di migliorare l'allocazione delle prove quando i dati visivi sono distribuiti in modo non uniforme nel tempo.

Fatti principali

  • VideoRouter è un framework a doppio router adattivo alle query per la comprensione di video lunghi.
  • È basato su InternVL.
  • Il Router Semantico prevede la politica di allocazione dominante.
  • Il Router Immagine utilizza i primi strati LLM per valutare la rilevanza dei fotogrammi.
  • Il sistema consente una compressione aggressiva sui fotogrammi meno rilevanti.
  • Preserva i dettagli sui fotogrammi critici di prova.
  • Il dataset di addestramento è Video-QTR-10K.
  • L'approccio affronta i colli di bottiglia di scalabilità nei grandi modelli video multimodali.

Entità

Fonti