AgentEscapeBench: Valutare il Ragionamento Strumentale degli Agenti LLM

ai-technology · 2026-05-11

AgentEscapeBench è stato lanciato da ricercatori come un benchmark modellato sulle escape room, volto a valutare la capacità degli agenti basati su LLM di mantenere un ragionamento ancorato agli strumenti al di là dei loro flussi di lavoro abituali e delle interazioni a breve termine. Questo benchmark valuta se gli agenti possono dedurre, implementare e adattare nuove procedure per l'uso degli strumenti rispettando vincoli espliciti di dipendenza a lungo raggio. Ogni compito presenta un grafo aciclico diretto riguardante strumenti e oggetti, richiedendo agli agenti di chiamare funzioni esterne reali, gestire stati nascosti rivelati gradualmente, propagare risultati intermedi e fornire una risposta finale verificabile. Composto da 270 istanze su cinque livelli di difficoltà, AgentEscapeBench consente valutazioni completamente automatizzate. Test che coinvolgono sedici agenti LLM e soggetti umani indicano un calo significativo delle prestazioni all'aumentare della profondità delle dipendenze: gli umani passano dal 98,3% di successo a difficoltà-1 all'80,0% a difficoltà-5. Questo benchmark funge da valutazione rigorosa delle capacità di ragionamento degli agenti in scenari complessi e multi-step.

Fatti principali

1. AgentEscapeBench è un benchmark in stile escape room per agenti LLM.
2. Valuta il ragionamento ancorato agli strumenti sotto vincoli di dipendenza a lungo raggio.
3. I compiti coinvolgono grafi di dipendenza aciclici diretti su strumenti e oggetti.
4. Gli agenti devono invocare funzioni esterne reali e tenere traccia dello stato nascosto.
5. Il benchmark include 270 istanze su cinque livelli di difficoltà.
6. Supporta la valutazione completamente automatizzata.
7. Sono stati testati sedici agenti LLM e partecipanti umani.
8. Le prestazioni umane scendono dal 98,3% all'80,0% all'aumentare della difficoltà.

Entità

—

Fonti

arXiv cs.AI — 2026-05-11