DRBENCHER: Benchmark Sintetico per Agenti AI di Navigazione Web
I ricercatori hanno creato un nuovo strumento chiamato DRBENCHER, che funge da generatore di benchmark sintetici per valutare agenti di ricerca approfondita che integrano la navigazione web con calcoli complessi. A differenza dei benchmark usuali che testano queste abilità separatamente, DRBENCHER elabora domande che richiedono entrambe le competenze in cinque campi: biochimica, finanza, geofisica, sicurezza e storia. Soddisfa quattro criteri: verificabilità, complessità, difficoltà e diversità. Le valutazioni umane mostrano un tasso di validità del 76% (84% escludendo dati obsoleti), con il 35% delle domande considerate difficili. Questo lavoro è pubblicato su arXiv, con ID 2604.09251.
Fatti principali
- DRBENCHER è un generatore di benchmark sintetici per domande che richiedono sia navigazione che calcolo.
- Copre cinque domini: biochimica, finanziario, geofisico, sicurezza e storia.
- Impone quattro criteri: verificabilità, complessità, difficoltà e diversità.
- La valutazione umana mostra una validità del 76% (84% escludendo dati obsoleti).
- Il 35% delle domande è considerato impegnativo.
- Pubblicato su arXiv con ID 2604.09251.
Entità
Istituzioni
- arXiv