Valutazione Basata su Stato Proxy per Agenti LLM Multi-Turn

other · 2026-05-14

Un nuovo benchmark per agenti LLM multi-turn con chiamata a strumenti utilizza la valutazione basata su stato proxy per evitare costosi backend deterministici. Il framework, proposto in arXiv:2602.16246, impiega un tracciatore di stato LLM per inferire stati proxy strutturati dalle tracce di interazione, con giudici LLM che verificano il completamento degli obiettivi e rilevano allucinazioni. Mira a produrre classifiche stabili e differenzianti per i modelli.

Fatti principali

arXiv:2602.16246v3
La valutazione basata su stato proxy è un framework di simulazione guidato da LLM
Preserva la valutazione basata sullo stato finale senza un database deterministico
Lo scenario specifica l'obiettivo dell'utente, i fatti utente/sistema, lo stato finale atteso e il comportamento atteso dell'agente
Il tracciatore di stato LLM inferisce uno stato proxy strutturato dall'intera traccia di interazione
I giudici LLM verificano il completamento dell'obiettivo e rilevano allucinazioni degli strumenti/utente
Benchmark precedenti: tau-bench, tau^2-bench, AppWorld si basano su backend completamente deterministici
Produce empiricamente classifiche stabili e differenzianti per i modelli

Entità

—

Fonti

arXiv cs.AI — 2026-05-14