MAGIC-Video: Framework senza addestramento per il ragionamento su video ultra-lunghi
MAGIC-Video è un nuovo framework progettato per affrontare le complessità dell'analisi di video ultra-lunghi che possono durare da giorni a settimane, come video egocentrici, live streaming o registrazioni di sorveglianza. I modelli linguistici multimodali esistenti, nonostante abbiano finestre di contesto di milioni di token, possono elaborare solo minuti di filmati densamente campionati, portando alla perdita di informazioni significative prima dell'inferenza. Mentre i metodi con memoria aumentata e agentici migliorano la scalabilità, faticano con il recupero frammentato tra diverse modalità e non forniscono riassunti narrativi completi a lungo raggio. MAGIC-Video opera senza addestramento, utilizzando un grafo di memoria multimodale che incorpora una catena narrativa intervallata. Questo grafo collega dati episodici, semantici e visivi attraverso sei archi distinti, facilitando il recupero cross-modale, mentre la catena narrativa cattura storie di entità a lungo termine e attività ricorrenti. Durante l'inferenza, un ciclo agentico combina il recupero dal grafo con l'iniezione di fatti narrativi. Ulteriori dettagli sono disponibili in arXiv:2605.08271v1.
Fatti principali
- MAGIC-Video è un framework senza addestramento per il ragionamento su video ultra-lunghi.
- Affronta video che vanno da giorni a settimane, inclusi filmati egocentrici, live streaming e di sorveglianza.
- Gli attuali modelli linguistici multimodali con contesti di milioni di token coprono solo decine di minuti di video denso.
- Il framework utilizza un grafo di memoria multimodale con sei archi tipizzati.
- Include una catena narrativa intervallata per biografie di entità a lungo termine ed eventi ricorrenti.
- All'inferenza, un ciclo agentico combina il recupero dal grafo con l'iniezione di fatti narrativi.
- L'articolo è disponibile su arXiv con ID 2605.08271v1.
- L'approccio è basato su memoria aumentata e agentico.
Entità
Istituzioni
- arXiv