ARTFEED — Contemporary Art Intelligence

MOV-Bench e AOP-Agent: Progressi nel ragionamento audio-visivo multi-hop

ai-technology · 2026-05-28

MOV-Bench, un nuovo benchmark composto da 519 domande accuratamente selezionate, valuta il ragionamento multi-hop su dati audio-visivi temporalmente dispersi. I risultati della valutazione indicano che gli attuali Omni-LLM incontrano difficoltà nel ragionamento cross-modale. Per affrontare questo problema, i ricercatori introducono AOP-Agent, un framework agenziale semplificato che sfrutta Omni-LLM open-source per una percezione attiva omni-modale. Questo innovativo AOP-Agent integra un sistema di memoria omni-modale gerarchico con un ciclo collaborativo di osservazione-riflessione-riprogettazione, consentendo agli Omni-LLM open-source di impegnarsi efficacemente nella percezione attiva.

Fatti principali

  • MOV-Bench contiene 519 domande curate
  • Le domande richiedono ragionamento multi-hop su prove audio-visive temporalmente disperse
  • Gli attuali Omni-LLM hanno difficoltà con il ragionamento cross-modale multi-hop
  • AOP-Agent è basato su Omni-LLM open-source
  • AOP-Agent utilizza una memoria omni-modale gerarchica
  • AOP-Agent impiega un ciclo collaborativo di osservazione-riflessione-riprogettazione
  • Il lavoro è pubblicato su arXiv con ID 2605.28192
  • L'articolo affronta le sfide nel ragionamento audio-visivo multi-hop

Entità

Istituzioni

  • arXiv

Fonti