Framework di Memoria Agente Visiva per la Comprensione di Video Lunghi

ai-technology · 2026-05-20

I ricercatori hanno presentato un nuovo framework chiamato Visual Agentic Memory (VAM) volto a migliorare la comprensione di video lunghi senza richiedere alcun addestramento preliminare. Questo framework include tre componenti principali: Online Indexing, che aiuta a trattenere prove selettive durante lo streaming; Hierarchical Memory, che struttura le informazioni in modo da catturare sia il tempo che lo spazio; e Agentic Retrieval, che consente agli utenti di cercare e verificare potenziali prove prima di produrre risposte informate. Testato su OVO-Bench, VAM ha ottenuto un punteggio medio impressionante di 68,41 in RT+BT, superando la versione end-to-end dello stesso MLLM di base, Gemini 3 Flash, che ha ottenuto 67,46. VAM ha anche mostrato la sua forza nell'analisi di video a lungo termine durante una valutazione mensile di MM-Lifelong train@month, per un totale di 105,6 ore in 51 giorni.

Fatti principali

VAM è un framework senza addestramento per la comprensione di video lunghi.
Include Online Indexing, Hierarchical Memory e Agentic Retrieval.
Su OVO-Bench, VAM ottiene una media RT+BT di 68,41.
Il baseline Gemini 3 Flash ottiene 67,46 su OVO-Bench.
La suddivisione MM-Lifelong train@month copre 105,6 ore in 51 giorni.
VAM supera l'uso end-to-end dello stesso MLLM.
Hierarchical Memory utilizza Parallel Representation.
Agentic Retrieval verifica le prove candidate prima di rispondere.

Framework di Memoria Agente Visiva per la Comprensione di Video Lunghi

Fatti principali

Entità

Istituzioni

Fonti