ARTFEED — Contemporary Art Intelligence

Framework di Memoria Agente Visiva per la Comprensione di Video Lunghi

ai-technology · 2026-05-20

I ricercatori hanno presentato un nuovo framework chiamato Visual Agentic Memory (VAM) volto a migliorare la comprensione di video lunghi senza richiedere alcun addestramento preliminare. Questo framework include tre componenti principali: Online Indexing, che aiuta a trattenere prove selettive durante lo streaming; Hierarchical Memory, che struttura le informazioni in modo da catturare sia il tempo che lo spazio; e Agentic Retrieval, che consente agli utenti di cercare e verificare potenziali prove prima di produrre risposte informate. Testato su OVO-Bench, VAM ha ottenuto un punteggio medio impressionante di 68,41 in RT+BT, superando la versione end-to-end dello stesso MLLM di base, Gemini 3 Flash, che ha ottenuto 67,46. VAM ha anche mostrato la sua forza nell'analisi di video a lungo termine durante una valutazione mensile di MM-Lifelong train@month, per un totale di 105,6 ore in 51 giorni.

Fatti principali

  • VAM è un framework senza addestramento per la comprensione di video lunghi.
  • Include Online Indexing, Hierarchical Memory e Agentic Retrieval.
  • Su OVO-Bench, VAM ottiene una media RT+BT di 68,41.
  • Il baseline Gemini 3 Flash ottiene 67,46 su OVO-Bench.
  • La suddivisione MM-Lifelong train@month copre 105,6 ore in 51 giorni.
  • VAM supera l'uso end-to-end dello stesso MLLM.
  • Hierarchical Memory utilizza Parallel Representation.
  • Agentic Retrieval verifica le prove candidate prima di rispondere.

Entità

Istituzioni

  • arXiv

Fonti