SPECTRA: Collezioni di Test Sintetiche per la Valutazione Scalabile dell'IR

other · 2026-06-01

SPECTRA funge da framework coerente per la creazione di collezioni di testo sintetiche e set di test per il recupero delle informazioni, pensato per migliorare sia i metodi di valutazione Cranfield che TREC. Distingue tra organizzazione topica latente, generazione di testo superficiale, gestione dei metadati, formulazione dell'intento della query e standard di rilevanza deterministica. Un prototipo Python, operante come singolo processo, ha prodotto collezioni contenenti fino a 60.000 documenti e 9,61 milioni di token, con espansione regolabile del vocabolario a coda lunga e gradazione della rilevanza per 96 query. Questo framework soddisfa la richiesta di test estesi riducendo al minimo la dipendenza da costose valutazioni umane o documenti riservati.

Fatti principali

1. SPECTRA genera corpora sintetici fino a 60.000 documenti e 9,61 milioni di token.
2. Il framework separa la struttura topica latente, il testo superficiale, i metadati, l'intento della query e gli oracoli di rilevanza.
3. Progettato come complemento diagnostico per la valutazione Cranfield e TREC.
4. Un prototipo Python a processo singolo ha prodotto etichette di rilevanza graduate per 96 query.
5. Viene preservata una crescita controllabile del vocabolario a coda lunga.
6. Mira a stressare la costruzione dell'indice, la latenza del ranking, il routing delle query e gli strumenti di valutazione.
7. Le collezioni di test giudicate da umani rimangono costose e potrebbero non essere disponibili per documenti privati.
8. SPECTRA non sostituisce la valutazione umana.

Entità

—

Fonti

arXiv cs.AI — 2026-06-01