EgoBench: Nuovo Benchmark Testa Agenti AI nell'Uso di Strumenti nel Mondo Reale

ai-technology · 2026-05-28

I ricercatori hanno introdotto EgoBench, il primo benchmark multimodale interattivo progettato per valutare agenti AI che utilizzano strumenti in ambienti aperti e reali. Il benchmark comprende 1.045 compiti basati su video egocentrici che coprono quattro scenari quotidiani, insieme a un ambiente interattivo utente-agente-strumento. Una pipeline sinergica a tre fasi garantisce che ogni compito richieda l'applicazione congiunta di percezione visiva e ragionamento multi-hop potenziato da strumenti. Un utente simulato multi-agente fornisce feedback naturale e vincolato al compito, consentendo una valutazione oggettiva dell'interazione dinamica. I benchmark esistenti non riescono a valutare congiuntamente la percezione multimodale, l'invocazione di strumenti con ragionamento multi-hop e l'interazione dinamica con l'utente a causa delle sfide nella progettazione di compiti accoppiati a più capacità e nella simulazione di feedback realistico. EgoBench mira a colmare questa lacuna fornendo un quadro di valutazione strettamente accoppiato. Il lavoro è dettagliato in un articolo su arXiv (2605.27820).

Fatti principali

EgoBench è il primo benchmark multimodale interattivo per agenti che utilizzano strumenti
Comprende 1.045 compiti basati su video egocentrici
Copre quattro scenari quotidiani
Include un ambiente interattivo utente-agente-strumento
Utilizza una pipeline sinergica a tre fasi per la progettazione dei compiti
Impiega un utente simulato multi-agente per il feedback
Valuta percezione multimodale, invocazione di strumenti e interazione dinamica
Articolo disponibile su arXiv con ID 2605.27820

EgoBench: Nuovo Benchmark Testa Agenti AI nell'Uso di Strumenti nel Mondo Reale

Fatti principali

Entità

Istituzioni

Fonti