ARTFEED — Contemporary Art Intelligence

DRBENCHER: Benchmark Sintetico per Agenti AI di Navigazione Web

ai-technology · 2026-04-25

I ricercatori hanno creato un nuovo strumento chiamato DRBENCHER, che funge da generatore di benchmark sintetici per valutare agenti di ricerca approfondita che integrano la navigazione web con calcoli complessi. A differenza dei benchmark usuali che testano queste abilità separatamente, DRBENCHER elabora domande che richiedono entrambe le competenze in cinque campi: biochimica, finanza, geofisica, sicurezza e storia. Soddisfa quattro criteri: verificabilità, complessità, difficoltà e diversità. Le valutazioni umane mostrano un tasso di validità del 76% (84% escludendo dati obsoleti), con il 35% delle domande considerate difficili. Questo lavoro è pubblicato su arXiv, con ID 2604.09251.

Fatti principali

  • DRBENCHER è un generatore di benchmark sintetici per domande che richiedono sia navigazione che calcolo.
  • Copre cinque domini: biochimica, finanziario, geofisico, sicurezza e storia.
  • Impone quattro criteri: verificabilità, complessità, difficoltà e diversità.
  • La valutazione umana mostra una validità del 76% (84% escludendo dati obsoleti).
  • Il 35% delle domande è considerato impegnativo.
  • Pubblicato su arXiv con ID 2604.09251.

Entità

Istituzioni

  • arXiv

Fonti