ARTFEED — Contemporary Art Intelligence

SGR-Bench: Nuovo benchmark per compiti di recupero con stato vincolato

other · 2026-05-23

I ricercatori hanno introdotto un nuovo benchmark chiamato SGR-Bench per valutare gli agenti di ricerca in compiti di recupero con stato vincolato (SGR). In questi compiti, è possibile trovare risposte solo dopo aver impostato condizioni di recupero specifiche per un sito, come filtri o gerarchie. SGR-Bench include 100 compiti accuratamente selezionati da sei diverse famiglie di fonti in 12 ecosistemi di dati pubblici. Ogni compito richiede di individuare il sito web giusto e regolare il suo stato di recupero per ottenere risposte strutturate. Questo benchmark consente confronti diretti tra guida esplicita e implicita combinando approcci basati su vincoli e orientati agli obiettivi. Si concentra su un'area di nicchia di compiti di recupero specializzati, particolarmente importante alla luce dei recenti progressi nei modelli linguistici di grandi dimensioni e negli agenti che utilizzano strumenti.

Fatti principali

  • 1. SGR-Bench è un benchmark per il recupero con stato vincolato (SGR).
  • 2. Contiene 100 compiti curati da esperti.
  • 3. I compiti coprono sei famiglie di fonti e 12 ecosistemi di dati pubblici.
  • 4. Ogni compito richiede la configurazione di stati di recupero specifici del sito.
  • 5. Il benchmark abbina formulazioni basate su vincoli e orientate agli obiettivi.
  • 6. Valuta gli agenti di ricerca su siti web specializzati nel recupero di dati.
  • 7. Il lavoro è pubblicato su arXiv con ID 2605.22219.
  • 8. Il recupero con stato vincolato coinvolge filtri, viste, gerarchie o ambiti.

Entità

Istituzioni

  • arXiv

Fonti