UnIte: Il Campionamento di Documenti Basato sull'Incertezza Potenzia l'Adattamento di Dominio nell'IR
Un nuovo metodo chiamato UnIte (Uncertainty-based Iterative Document Sampling) migliora l'adattamento di dominio non supervisionato per i recuperatori neurali di informazioni. L'approccio filtra i documenti con elevata incertezza aleatoria e dà priorità a quelli con elevata incertezza epistemica per massimizzare l'utilità di apprendimento. Esperimenti sul corpus BEIR con modelli piccoli e grandi mostrano guadagni significativi di +2,45 e +3,49 nDCG@10 utilizzando in media solo 4.000 campioni di addestramento. Il metodo affronta le limitazioni del campionamento esistente basato sulla diversità incorporando l'incertezza del modello.
Fatti principali
- UnIte sta per Uncertainty-based Iterative Document Sampling.
- Affronta le limitazioni dei metodi esistenti di campionamento dei documenti che si concentrano sulla diversità ma non catturano l'incertezza del modello.
- Il metodo filtra i documenti con elevata incertezza aleatoria e dà priorità a quelli con elevata incertezza epistemica.
- Gli esperimenti sono stati condotti sul corpus BEIR con modelli piccoli e grandi.
- Sono stati ottenuti guadagni di +2,45 e +3,49 nDCG@10 con una dimensione media del campione di addestramento di 4.000.
- Il lavoro rientra nel campo dell'adattamento di dominio non supervisionato per i recuperatori neurali.
- Il metodo genera pseudo query su documenti del dominio target.
- L'articolo è disponibile su arXiv sotto Computer Science > Information Retrieval.
Entità
Istituzioni
- arXiv
- BEIR