ARTFEED — Contemporary Art Intelligence

Nuovo Benchmark Rivela che gli Agenti di Ricerca LLM si Affidano alla Conoscenza Interna

ai-technology · 2026-05-28

Uno studio di arXiv (2605.28721) introduce LiveBrowseComp, un benchmark di ricerca approfondita progettato per valutare se gli agenti di ricerca basati su LLM scoprono effettivamente nuove informazioni o si limitano a verificare ciò che già sanno. I ricercatori diagnosticano la Dipendenza dalla Conoscenza Intrinseca (IKD), mostrando che gli agenti rispondono fino al 44,5% delle domande di BrowseComp senza utilizzare strumenti, generano oltre la metà delle query di ricerca da ipotesi interne e ottengono risultati peggiori rispetto ai baselines a libro chiuso quando vengono rimossi i dati di supporto. Questi risultati indicano che i benchmark di ricerca statici potrebbero premiare la verifica basata sulla memoria piuttosto che la scoperta basata sull'evidenza. LiveBrowseComp mira a valutare gli agenti al di là della copertura intrinseca.

Fatti principali

  • Studio pubblicato su arXiv con ID 2605.28721.
  • Introduce il concetto di Dipendenza dalla Conoscenza Intrinseca (IKD).
  • Gli agenti rispondono fino al 44,5% delle domande di BrowseComp senza strumenti.
  • Più della metà delle query di ricerca sono generate da ipotesi interne.
  • Gli agenti ottengono risultati peggiori rispetto ai baselines a libro chiuso quando vengono rimossi i dati di supporto.
  • I benchmark di ricerca statici possono confondere le informazioni note con quelle scopribili.
  • LiveBrowseComp è un nuovo benchmark di ricerca approfondita.
  • Il benchmark è progettato per valutare gli agenti al di là della copertura intrinseca.

Entità

Istituzioni

  • arXiv

Fonti