Nuovo Benchmark Valuta Agenti di Ricerca Approfondita su Compiti di Consulenza Esperta
Un recente studio di benchmark pubblicato su arXiv valuta gli agenti di ricerca approfondita (DRA) all'avanguardia nel contesto di compiti analitici strutturati comunemente eseguiti dai consulenti di management. La valutazione assegna un punteggio di 4.6 a Claude Opus, mentre anche o3-deep-research di OpenAI e Google Gemini 3.1 Pro vengono testati su 42 prompt redatti da esperti, generando un totale di 126 risposte. Ogni risposta viene valutata utilizzando verificatori deterministici di verità di base, in media 13.8 per compito, insieme a una rubrica a cinque criteri valutata da 0 a 3 da esperti del settore. Queste valutazioni vengono poi combinate in un Verifier-Rubric Score (VRS) su una scala da 0 a 100. Il benchmark mira ad affrontare compiti multi-documento e di livello decisionale trascurati dai benchmark esistenti, incorporando trappole cognitive per scoraggiare il riconoscimento superficiale di pattern.
Fatti principali
- ID articolo arXiv: 2605.17554
- Valuta Claude Opus 4.6, OpenAI o3-deep-research e Google Gemini 3.1 Pro deep-research
- 42 prompt redatti da esperti del settore (SME) utilizzati
- 126 risposte totali valutate
- Media di 13.8 verificatori deterministici per compito
- Rubrica SME a cinque criteri (0-3) applicata
- Verifier-Rubric Score (VRS) su scala 0-100
- Trappole cognitive incorporate nei prompt
Entità
Istituzioni
- arXiv