UnIte: Il Campionamento di Documenti Basato sull'Incertezza Potenzia l'Adattamento di Dominio nell'IR

other · 2026-04-30

Un nuovo metodo chiamato UnIte (Uncertainty-based Iterative Document Sampling) migliora l'adattamento di dominio non supervisionato per i recuperatori neurali di informazioni. L'approccio filtra i documenti con elevata incertezza aleatoria e dà priorità a quelli con elevata incertezza epistemica per massimizzare l'utilità di apprendimento. Esperimenti sul corpus BEIR con modelli piccoli e grandi mostrano guadagni significativi di +2,45 e +3,49 nDCG@10 utilizzando in media solo 4.000 campioni di addestramento. Il metodo affronta le limitazioni del campionamento esistente basato sulla diversità incorporando l'incertezza del modello.

Fatti principali

UnIte sta per Uncertainty-based Iterative Document Sampling.
Affronta le limitazioni dei metodi esistenti di campionamento dei documenti che si concentrano sulla diversità ma non catturano l'incertezza del modello.
Il metodo filtra i documenti con elevata incertezza aleatoria e dà priorità a quelli con elevata incertezza epistemica.
Gli esperimenti sono stati condotti sul corpus BEIR con modelli piccoli e grandi.
Sono stati ottenuti guadagni di +2,45 e +3,49 nDCG@10 con una dimensione media del campione di addestramento di 4.000.
Il lavoro rientra nel campo dell'adattamento di dominio non supervisionato per i recuperatori neurali.
Il metodo genera pseudo query su documenti del dominio target.
L'articolo è disponibile su arXiv sotto Computer Science > Information Retrieval.

UnIte: Il Campionamento di Documenti Basato sull'Incertezza Potenzia l'Adattamento di Dominio nell'IR

Fatti principali

Entità

Istituzioni

Fonti