DecisionBench: Benchmarking della Delega Emergente nei Flussi di Lavoro degli Agenti AI
I ricercatori hanno introdotto DecisionBench, un nuovo framework volto a valutare quanto bene gli agenti possano delegare compiti per lunghi periodi. Questa configurazione include vari compiti come GAIA, tau-bench e BFCL multi-turn, insieme a 11 modelli peer provenienti da sette diverse famiglie di fornitori. Presenta un'interfaccia di delega con call_model e un canale opzionale read_profile. C'è anche un livello di annotazione delle competenze e una suite di metriche dettagliate che misura fattori come qualità, costo, latenza e altro. È interessante notare che uno studio che ha coinvolto 23.375 compiti ha mostrato che la qualità media dei risultati finali era approssimativamente la stessa in quattro diverse condizioni di consapevolezza, suggerendo che le attuali tecniche di delega non hanno migliorato le prestazioni dei compiti.
Fatti principali
- DecisionBench è un benchmark per la delega emergente in flussi di lavoro agentici a lungo termine.
- La suite di compiti include GAIA, tau-bench e BFCL multi-turn.
- Il pool di modelli peer è composto da 11 modelli di 7 famiglie di fornitori.
- L'interfaccia di delega include call_model e il canale opzionale read_profile.
- La suite di metriche copre qualità, costo, latenza, tasso di delega, fedeltà di routing a k, auto-preferenza del fornitore e tetto di delega controfattuale.
- Il substrato è agnostico rispetto a come le informazioni peer vengono generate o fornite.
- È stata condotta una scansione di riferimento a cinque condizioni su 23.375 istanze di compiti.
- La qualità media del compito finale è statisticamente indistinguibile tra quattro condizioni di consapevolezza.
Entità
—