Nuovo Benchmark Rivela che gli Agenti di Ricerca LLM si Affidano alla Conoscenza Interna
Uno studio di arXiv (2605.28721) introduce LiveBrowseComp, un benchmark di ricerca approfondita progettato per valutare se gli agenti di ricerca basati su LLM scoprono effettivamente nuove informazioni o si limitano a verificare ciò che già sanno. I ricercatori diagnosticano la Dipendenza dalla Conoscenza Intrinseca (IKD), mostrando che gli agenti rispondono fino al 44,5% delle domande di BrowseComp senza utilizzare strumenti, generano oltre la metà delle query di ricerca da ipotesi interne e ottengono risultati peggiori rispetto ai baselines a libro chiuso quando vengono rimossi i dati di supporto. Questi risultati indicano che i benchmark di ricerca statici potrebbero premiare la verifica basata sulla memoria piuttosto che la scoperta basata sull'evidenza. LiveBrowseComp mira a valutare gli agenti al di là della copertura intrinseca.
Fatti principali
- Studio pubblicato su arXiv con ID 2605.28721.
- Introduce il concetto di Dipendenza dalla Conoscenza Intrinseca (IKD).
- Gli agenti rispondono fino al 44,5% delle domande di BrowseComp senza strumenti.
- Più della metà delle query di ricerca sono generate da ipotesi interne.
- Gli agenti ottengono risultati peggiori rispetto ai baselines a libro chiuso quando vengono rimossi i dati di supporto.
- I benchmark di ricerca statici possono confondere le informazioni note con quelle scopribili.
- LiveBrowseComp è un nuovo benchmark di ricerca approfondita.
- Il benchmark è progettato per valutare gli agenti al di là della copertura intrinseca.
Entità
Istituzioni
- arXiv