Nuovo Framework Diagnostica i Fallimenti degli Agenti AI con Precisione a Livello di Span
Un framework di valutazione completo per agenti AI è stato creato dai ricercatori, integrando sia diagnostiche top-down a livello di agente che valutazioni bottom-up a livello di span. Questo framework suddivide l'analisi in valutazioni separate per ogni span, consentendo di scalare a tracce di qualsiasi lunghezza e fornendo giustificazioni per ogni conclusione. Sul benchmark TRAIL, dimostra prestazioni all'avanguardia su GAIA e SWE-Bench, ottenendo miglioramenti relativi rispetto ai benchmark precedenti fino al 38% nella F1 di categoria, 3,5 volte nella precisione di localizzazione e 12,5 volte nella precisione congiunta di localizzazione-categorizzazione. Questo metodo supera le carenze delle tecniche di valutazione esistenti, che spesso non chiariscono le ragioni del successo o del fallimento e hanno difficoltà a individuare i tipi di fallimento all'interno di tracce lunghe e strutturate.
Fatti principali
- Il framework abbina la diagnosi top-down a livello di agente con la valutazione bottom-up a livello di span.
- Scompone l'analisi in valutazioni indipendenti per ogni span.
- Il framework scala a tracce di lunghezza arbitraria.
- Produce motivazioni a livello di span per ogni verdetto.
- Sul benchmark TRAIL, raggiunge risultati all'avanguardia su GAIA e SWE-Bench.
- Miglioramenti relativi rispetto ai baselines precedenti: fino al 38% nella F1 di categoria.
- Miglioramenti relativi: fino a 3,5x nella precisione di localizzazione.
- Miglioramenti relativi: fino a 12,5x nella precisione congiunta di localizzazione-categorizzazione.
Entità
—