ARTFEED — Contemporary Art Intelligence

EgoBench: Nuovo Benchmark Testa Agenti AI nell'Uso di Strumenti nel Mondo Reale

ai-technology · 2026-05-28

I ricercatori hanno introdotto EgoBench, il primo benchmark multimodale interattivo progettato per valutare agenti AI che utilizzano strumenti in ambienti aperti e reali. Il benchmark comprende 1.045 compiti basati su video egocentrici che coprono quattro scenari quotidiani, insieme a un ambiente interattivo utente-agente-strumento. Una pipeline sinergica a tre fasi garantisce che ogni compito richieda l'applicazione congiunta di percezione visiva e ragionamento multi-hop potenziato da strumenti. Un utente simulato multi-agente fornisce feedback naturale e vincolato al compito, consentendo una valutazione oggettiva dell'interazione dinamica. I benchmark esistenti non riescono a valutare congiuntamente la percezione multimodale, l'invocazione di strumenti con ragionamento multi-hop e l'interazione dinamica con l'utente a causa delle sfide nella progettazione di compiti accoppiati a più capacità e nella simulazione di feedback realistico. EgoBench mira a colmare questa lacuna fornendo un quadro di valutazione strettamente accoppiato. Il lavoro è dettagliato in un articolo su arXiv (2605.27820).

Fatti principali

  • EgoBench è il primo benchmark multimodale interattivo per agenti che utilizzano strumenti
  • Comprende 1.045 compiti basati su video egocentrici
  • Copre quattro scenari quotidiani
  • Include un ambiente interattivo utente-agente-strumento
  • Utilizza una pipeline sinergica a tre fasi per la progettazione dei compiti
  • Impiega un utente simulato multi-agente per il feedback
  • Valuta percezione multimodale, invocazione di strumenti e interazione dinamica
  • Articolo disponibile su arXiv con ID 2605.27820

Entità

Istituzioni

  • arXiv

Fonti