MOV-Bench e AOP-Agent: Progressi nel ragionamento audio-visivo multi-hop
MOV-Bench, un nuovo benchmark composto da 519 domande accuratamente selezionate, valuta il ragionamento multi-hop su dati audio-visivi temporalmente dispersi. I risultati della valutazione indicano che gli attuali Omni-LLM incontrano difficoltà nel ragionamento cross-modale. Per affrontare questo problema, i ricercatori introducono AOP-Agent, un framework agenziale semplificato che sfrutta Omni-LLM open-source per una percezione attiva omni-modale. Questo innovativo AOP-Agent integra un sistema di memoria omni-modale gerarchico con un ciclo collaborativo di osservazione-riflessione-riprogettazione, consentendo agli Omni-LLM open-source di impegnarsi efficacemente nella percezione attiva.
Fatti principali
- MOV-Bench contiene 519 domande curate
- Le domande richiedono ragionamento multi-hop su prove audio-visive temporalmente disperse
- Gli attuali Omni-LLM hanno difficoltà con il ragionamento cross-modale multi-hop
- AOP-Agent è basato su Omni-LLM open-source
- AOP-Agent utilizza una memoria omni-modale gerarchica
- AOP-Agent impiega un ciclo collaborativo di osservazione-riflessione-riprogettazione
- Il lavoro è pubblicato su arXiv con ID 2605.28192
- L'articolo affronta le sfide nel ragionamento audio-visivo multi-hop
Entità
Istituzioni
- arXiv