AgentEscapeBench: Valutare il Ragionamento Strumentale degli Agenti LLM
AgentEscapeBench è stato lanciato da ricercatori come un benchmark modellato sulle escape room, volto a valutare la capacità degli agenti basati su LLM di mantenere un ragionamento ancorato agli strumenti al di là dei loro flussi di lavoro abituali e delle interazioni a breve termine. Questo benchmark valuta se gli agenti possono dedurre, implementare e adattare nuove procedure per l'uso degli strumenti rispettando vincoli espliciti di dipendenza a lungo raggio. Ogni compito presenta un grafo aciclico diretto riguardante strumenti e oggetti, richiedendo agli agenti di chiamare funzioni esterne reali, gestire stati nascosti rivelati gradualmente, propagare risultati intermedi e fornire una risposta finale verificabile. Composto da 270 istanze su cinque livelli di difficoltà, AgentEscapeBench consente valutazioni completamente automatizzate. Test che coinvolgono sedici agenti LLM e soggetti umani indicano un calo significativo delle prestazioni all'aumentare della profondità delle dipendenze: gli umani passano dal 98,3% di successo a difficoltà-1 all'80,0% a difficoltà-5. Questo benchmark funge da valutazione rigorosa delle capacità di ragionamento degli agenti in scenari complessi e multi-step.
Fatti principali
- 1. AgentEscapeBench è un benchmark in stile escape room per agenti LLM.
- 2. Valuta il ragionamento ancorato agli strumenti sotto vincoli di dipendenza a lungo raggio.
- 3. I compiti coinvolgono grafi di dipendenza aciclici diretti su strumenti e oggetti.
- 4. Gli agenti devono invocare funzioni esterne reali e tenere traccia dello stato nascosto.
- 5. Il benchmark include 270 istanze su cinque livelli di difficoltà.
- 6. Supporta la valutazione completamente automatizzata.
- 7. Sono stati testati sedici agenti LLM e partecipanti umani.
- 8. Le prestazioni umane scendono dal 98,3% all'80,0% all'aumentare della difficoltà.
Entità
—