Nuovo Framework Diagnostica i Fallimenti degli Agenti AI con Precisione a Livello di Span

ai-technology · 2026-05-16

Un framework di valutazione completo per agenti AI è stato creato dai ricercatori, integrando sia diagnostiche top-down a livello di agente che valutazioni bottom-up a livello di span. Questo framework suddivide l'analisi in valutazioni separate per ogni span, consentendo di scalare a tracce di qualsiasi lunghezza e fornendo giustificazioni per ogni conclusione. Sul benchmark TRAIL, dimostra prestazioni all'avanguardia su GAIA e SWE-Bench, ottenendo miglioramenti relativi rispetto ai benchmark precedenti fino al 38% nella F1 di categoria, 3,5 volte nella precisione di localizzazione e 12,5 volte nella precisione congiunta di localizzazione-categorizzazione. Questo metodo supera le carenze delle tecniche di valutazione esistenti, che spesso non chiariscono le ragioni del successo o del fallimento e hanno difficoltà a individuare i tipi di fallimento all'interno di tracce lunghe e strutturate.

Fatti principali

Il framework abbina la diagnosi top-down a livello di agente con la valutazione bottom-up a livello di span.
Scompone l'analisi in valutazioni indipendenti per ogni span.
Il framework scala a tracce di lunghezza arbitraria.
Produce motivazioni a livello di span per ogni verdetto.
Sul benchmark TRAIL, raggiunge risultati all'avanguardia su GAIA e SWE-Bench.
Miglioramenti relativi rispetto ai baselines precedenti: fino al 38% nella F1 di categoria.
Miglioramenti relativi: fino a 3,5x nella precisione di localizzazione.
Miglioramenti relativi: fino a 12,5x nella precisione congiunta di localizzazione-categorizzazione.

Entità

—

Fonti

arXiv cs.AI — 2026-05-16