Nuovo Benchmark Valuta Agenti di Ricerca Approfondita su Compiti di Consulenza Esperta

ai-technology · 2026-05-20

Un recente studio di benchmark pubblicato su arXiv valuta gli agenti di ricerca approfondita (DRA) all'avanguardia nel contesto di compiti analitici strutturati comunemente eseguiti dai consulenti di management. La valutazione assegna un punteggio di 4.6 a Claude Opus, mentre anche o3-deep-research di OpenAI e Google Gemini 3.1 Pro vengono testati su 42 prompt redatti da esperti, generando un totale di 126 risposte. Ogni risposta viene valutata utilizzando verificatori deterministici di verità di base, in media 13.8 per compito, insieme a una rubrica a cinque criteri valutata da 0 a 3 da esperti del settore. Queste valutazioni vengono poi combinate in un Verifier-Rubric Score (VRS) su una scala da 0 a 100. Il benchmark mira ad affrontare compiti multi-documento e di livello decisionale trascurati dai benchmark esistenti, incorporando trappole cognitive per scoraggiare il riconoscimento superficiale di pattern.

Fatti principali

ID articolo arXiv: 2605.17554
Valuta Claude Opus 4.6, OpenAI o3-deep-research e Google Gemini 3.1 Pro deep-research
42 prompt redatti da esperti del settore (SME) utilizzati
126 risposte totali valutate
Media di 13.8 verificatori deterministici per compito
Rubrica SME a cinque criteri (0-3) applicata
Verifier-Rubric Score (VRS) su scala 0-100
Trappole cognitive incorporate nei prompt

Nuovo Benchmark Valuta Agenti di Ricerca Approfondita su Compiti di Consulenza Esperta

Fatti principali

Entità

Istituzioni

Fonti