ARTFEED — Contemporary Art Intelligence

Valutazione Basata su Stato Proxy per Agenti LLM Multi-Turn

other · 2026-05-14

Un nuovo benchmark per agenti LLM multi-turn con chiamata a strumenti utilizza la valutazione basata su stato proxy per evitare costosi backend deterministici. Il framework, proposto in arXiv:2602.16246, impiega un tracciatore di stato LLM per inferire stati proxy strutturati dalle tracce di interazione, con giudici LLM che verificano il completamento degli obiettivi e rilevano allucinazioni. Mira a produrre classifiche stabili e differenzianti per i modelli.

Fatti principali

  • arXiv:2602.16246v3
  • La valutazione basata su stato proxy è un framework di simulazione guidato da LLM
  • Preserva la valutazione basata sullo stato finale senza un database deterministico
  • Lo scenario specifica l'obiettivo dell'utente, i fatti utente/sistema, lo stato finale atteso e il comportamento atteso dell'agente
  • Il tracciatore di stato LLM inferisce uno stato proxy strutturato dall'intera traccia di interazione
  • I giudici LLM verificano il completamento dell'obiettivo e rilevano allucinazioni degli strumenti/utente
  • Benchmark precedenti: tau-bench, tau^2-bench, AppWorld si basano su backend completamente deterministici
  • Produce empiricamente classifiche stabili e differenzianti per i modelli

Entità

Fonti