AdaFocus: Comprensione Efficiente di Video Lunghi tramite Campionamento Adattivo
AdaFocus introduce un nuovo framework per la comprensione di video lunghi, concettualizzando il compito come un'acquisizione progressiva di prove invece di basarsi su una codifica unica. Questo approccio affronta i limiti dei metodi tradizionali one-shot, che richiedono alta memoria e latenza per la codifica densa dei video o compromettono i dettagli comprimendo i video in set di fotogrammi sparsi. Il framework è composto da due elementi principali: un campionatore adattivo di rilevanza-diversità sensibile alla query (AdaRD) che genera un'anteprima video concisa e passa al clustering globale quando l'ancoraggio locale è insufficiente; e un meccanismo di raffinamento attivato dall'incertezza che impedisce la memorizzazione di sequenze estese di fotogrammi. Il suo obiettivo è raggiungere un equilibrio tra copertura temporale, fedeltà visiva ed efficienza computazionale. La ricerca è disponibile su arXiv con ID 2605.12954.
Fatti principali
- AdaFocus è un framework per la comprensione di video lunghi.
- Utilizza l'acquisizione progressiva di prove invece della codifica unica.
- Il framework include un campionatore adattivo di rilevanza-diversità sensibile alla query (AdaRD).
- AdaRD passa al clustering globale quando la query manca di un affidabile ancoraggio locale.
- Un meccanismo di raffinamento attivato dall'incertezza evita la memorizzazione di sequenze esaustive di fotogrammi.
- L'articolo è disponibile su arXiv con ID 2605.12954.
- L'approccio mira a bilanciare copertura temporale, dettagli visivi ed efficienza computazionale.
- I metodi esistenti codificano densamente i video o li comprimono in set di fotogrammi sparsi.
Entità
Istituzioni
- arXiv