Framework di Memoria Agente Visiva per la Comprensione di Video Lunghi
I ricercatori hanno presentato un nuovo framework chiamato Visual Agentic Memory (VAM) volto a migliorare la comprensione di video lunghi senza richiedere alcun addestramento preliminare. Questo framework include tre componenti principali: Online Indexing, che aiuta a trattenere prove selettive durante lo streaming; Hierarchical Memory, che struttura le informazioni in modo da catturare sia il tempo che lo spazio; e Agentic Retrieval, che consente agli utenti di cercare e verificare potenziali prove prima di produrre risposte informate. Testato su OVO-Bench, VAM ha ottenuto un punteggio medio impressionante di 68,41 in RT+BT, superando la versione end-to-end dello stesso MLLM di base, Gemini 3 Flash, che ha ottenuto 67,46. VAM ha anche mostrato la sua forza nell'analisi di video a lungo termine durante una valutazione mensile di MM-Lifelong train@month, per un totale di 105,6 ore in 51 giorni.
Fatti principali
- VAM è un framework senza addestramento per la comprensione di video lunghi.
- Include Online Indexing, Hierarchical Memory e Agentic Retrieval.
- Su OVO-Bench, VAM ottiene una media RT+BT di 68,41.
- Il baseline Gemini 3 Flash ottiene 67,46 su OVO-Bench.
- La suddivisione MM-Lifelong train@month copre 105,6 ore in 51 giorni.
- VAM supera l'uso end-to-end dello stesso MLLM.
- Hierarchical Memory utilizza Parallel Representation.
- Agentic Retrieval verifica le prove candidate prima di rispondere.
Entità
Istituzioni
- arXiv