EgoBench: Nuovo Benchmark Testa Agenti AI nell'Uso di Strumenti nel Mondo Reale
I ricercatori hanno introdotto EgoBench, il primo benchmark multimodale interattivo progettato per valutare agenti AI che utilizzano strumenti in ambienti aperti e reali. Il benchmark comprende 1.045 compiti basati su video egocentrici che coprono quattro scenari quotidiani, insieme a un ambiente interattivo utente-agente-strumento. Una pipeline sinergica a tre fasi garantisce che ogni compito richieda l'applicazione congiunta di percezione visiva e ragionamento multi-hop potenziato da strumenti. Un utente simulato multi-agente fornisce feedback naturale e vincolato al compito, consentendo una valutazione oggettiva dell'interazione dinamica. I benchmark esistenti non riescono a valutare congiuntamente la percezione multimodale, l'invocazione di strumenti con ragionamento multi-hop e l'interazione dinamica con l'utente a causa delle sfide nella progettazione di compiti accoppiati a più capacità e nella simulazione di feedback realistico. EgoBench mira a colmare questa lacuna fornendo un quadro di valutazione strettamente accoppiato. Il lavoro è dettagliato in un articolo su arXiv (2605.27820).
Fatti principali
- EgoBench è il primo benchmark multimodale interattivo per agenti che utilizzano strumenti
- Comprende 1.045 compiti basati su video egocentrici
- Copre quattro scenari quotidiani
- Include un ambiente interattivo utente-agente-strumento
- Utilizza una pipeline sinergica a tre fasi per la progettazione dei compiti
- Impiega un utente simulato multi-agente per il feedback
- Valuta percezione multimodale, invocazione di strumenti e interazione dinamica
- Articolo disponibile su arXiv con ID 2605.27820
Entità
Istituzioni
- arXiv