MOV-Bench e AOP-Agent: Progressi nel ragionamento audio-visivo multi-hop

ai-technology · 2026-05-28

MOV-Bench, un nuovo benchmark composto da 519 domande accuratamente selezionate, valuta il ragionamento multi-hop su dati audio-visivi temporalmente dispersi. I risultati della valutazione indicano che gli attuali Omni-LLM incontrano difficoltà nel ragionamento cross-modale. Per affrontare questo problema, i ricercatori introducono AOP-Agent, un framework agenziale semplificato che sfrutta Omni-LLM open-source per una percezione attiva omni-modale. Questo innovativo AOP-Agent integra un sistema di memoria omni-modale gerarchico con un ciclo collaborativo di osservazione-riflessione-riprogettazione, consentendo agli Omni-LLM open-source di impegnarsi efficacemente nella percezione attiva.

Fatti principali

MOV-Bench contiene 519 domande curate
Le domande richiedono ragionamento multi-hop su prove audio-visive temporalmente disperse
Gli attuali Omni-LLM hanno difficoltà con il ragionamento cross-modale multi-hop
AOP-Agent è basato su Omni-LLM open-source
AOP-Agent utilizza una memoria omni-modale gerarchica
AOP-Agent impiega un ciclo collaborativo di osservazione-riflessione-riprogettazione
Il lavoro è pubblicato su arXiv con ID 2605.28192
L'articolo affronta le sfide nel ragionamento audio-visivo multi-hop

MOV-Bench e AOP-Agent: Progressi nel ragionamento audio-visivo multi-hop

Fatti principali

Entità

Istituzioni

Fonti