MAGIC-Video: Framework senza addestramento per il ragionamento su video ultra-lunghi

ai-technology · 2026-05-12

MAGIC-Video è un nuovo framework progettato per affrontare le complessità dell'analisi di video ultra-lunghi che possono durare da giorni a settimane, come video egocentrici, live streaming o registrazioni di sorveglianza. I modelli linguistici multimodali esistenti, nonostante abbiano finestre di contesto di milioni di token, possono elaborare solo minuti di filmati densamente campionati, portando alla perdita di informazioni significative prima dell'inferenza. Mentre i metodi con memoria aumentata e agentici migliorano la scalabilità, faticano con il recupero frammentato tra diverse modalità e non forniscono riassunti narrativi completi a lungo raggio. MAGIC-Video opera senza addestramento, utilizzando un grafo di memoria multimodale che incorpora una catena narrativa intervallata. Questo grafo collega dati episodici, semantici e visivi attraverso sei archi distinti, facilitando il recupero cross-modale, mentre la catena narrativa cattura storie di entità a lungo termine e attività ricorrenti. Durante l'inferenza, un ciclo agentico combina il recupero dal grafo con l'iniezione di fatti narrativi. Ulteriori dettagli sono disponibili in arXiv:2605.08271v1.

Fatti principali

MAGIC-Video è un framework senza addestramento per il ragionamento su video ultra-lunghi.
Affronta video che vanno da giorni a settimane, inclusi filmati egocentrici, live streaming e di sorveglianza.
Gli attuali modelli linguistici multimodali con contesti di milioni di token coprono solo decine di minuti di video denso.
Il framework utilizza un grafo di memoria multimodale con sei archi tipizzati.
Include una catena narrativa intervallata per biografie di entità a lungo termine ed eventi ricorrenti.
All'inferenza, un ciclo agentico combina il recupero dal grafo con l'iniezione di fatti narrativi.
L'articolo è disponibile su arXiv con ID 2605.08271v1.
L'approccio è basato su memoria aumentata e agentico.

MAGIC-Video: Framework senza addestramento per il ragionamento su video ultra-lunghi

Fatti principali

Entità

Istituzioni

Fonti