Valutazione Basata su Stato Proxy per Agenti LLM Multi-Turn
Un nuovo benchmark per agenti LLM multi-turn con chiamata a strumenti utilizza la valutazione basata su stato proxy per evitare costosi backend deterministici. Il framework, proposto in arXiv:2602.16246, impiega un tracciatore di stato LLM per inferire stati proxy strutturati dalle tracce di interazione, con giudici LLM che verificano il completamento degli obiettivi e rilevano allucinazioni. Mira a produrre classifiche stabili e differenzianti per i modelli.
Fatti principali
- arXiv:2602.16246v3
- La valutazione basata su stato proxy è un framework di simulazione guidato da LLM
- Preserva la valutazione basata sullo stato finale senza un database deterministico
- Lo scenario specifica l'obiettivo dell'utente, i fatti utente/sistema, lo stato finale atteso e il comportamento atteso dell'agente
- Il tracciatore di stato LLM inferisce uno stato proxy strutturato dall'intera traccia di interazione
- I giudici LLM verificano il completamento dell'obiettivo e rilevano allucinazioni degli strumenti/utente
- Benchmark precedenti: tau-bench, tau^2-bench, AppWorld si basano su backend completamente deterministici
- Produce empiricamente classifiche stabili e differenzianti per i modelli
Entità
—