SGR-Bench: Nuovo benchmark per compiti di recupero con stato vincolato
I ricercatori hanno introdotto un nuovo benchmark chiamato SGR-Bench per valutare gli agenti di ricerca in compiti di recupero con stato vincolato (SGR). In questi compiti, è possibile trovare risposte solo dopo aver impostato condizioni di recupero specifiche per un sito, come filtri o gerarchie. SGR-Bench include 100 compiti accuratamente selezionati da sei diverse famiglie di fonti in 12 ecosistemi di dati pubblici. Ogni compito richiede di individuare il sito web giusto e regolare il suo stato di recupero per ottenere risposte strutturate. Questo benchmark consente confronti diretti tra guida esplicita e implicita combinando approcci basati su vincoli e orientati agli obiettivi. Si concentra su un'area di nicchia di compiti di recupero specializzati, particolarmente importante alla luce dei recenti progressi nei modelli linguistici di grandi dimensioni e negli agenti che utilizzano strumenti.
Fatti principali
- 1. SGR-Bench è un benchmark per il recupero con stato vincolato (SGR).
- 2. Contiene 100 compiti curati da esperti.
- 3. I compiti coprono sei famiglie di fonti e 12 ecosistemi di dati pubblici.
- 4. Ogni compito richiede la configurazione di stati di recupero specifici del sito.
- 5. Il benchmark abbina formulazioni basate su vincoli e orientate agli obiettivi.
- 6. Valuta gli agenti di ricerca su siti web specializzati nel recupero di dati.
- 7. Il lavoro è pubblicato su arXiv con ID 2605.22219.
- 8. Il recupero con stato vincolato coinvolge filtri, viste, gerarchie o ambiti.
Entità
Istituzioni
- arXiv