ARTFEED — Contemporary Art Intelligence

UnIte: Il Campionamento di Documenti Basato sull'Incertezza Potenzia l'Adattamento di Dominio nell'IR

other · 2026-04-30

Un nuovo metodo chiamato UnIte (Uncertainty-based Iterative Document Sampling) migliora l'adattamento di dominio non supervisionato per i recuperatori neurali di informazioni. L'approccio filtra i documenti con elevata incertezza aleatoria e dà priorità a quelli con elevata incertezza epistemica per massimizzare l'utilità di apprendimento. Esperimenti sul corpus BEIR con modelli piccoli e grandi mostrano guadagni significativi di +2,45 e +3,49 nDCG@10 utilizzando in media solo 4.000 campioni di addestramento. Il metodo affronta le limitazioni del campionamento esistente basato sulla diversità incorporando l'incertezza del modello.

Fatti principali

  • UnIte sta per Uncertainty-based Iterative Document Sampling.
  • Affronta le limitazioni dei metodi esistenti di campionamento dei documenti che si concentrano sulla diversità ma non catturano l'incertezza del modello.
  • Il metodo filtra i documenti con elevata incertezza aleatoria e dà priorità a quelli con elevata incertezza epistemica.
  • Gli esperimenti sono stati condotti sul corpus BEIR con modelli piccoli e grandi.
  • Sono stati ottenuti guadagni di +2,45 e +3,49 nDCG@10 con una dimensione media del campione di addestramento di 4.000.
  • Il lavoro rientra nel campo dell'adattamento di dominio non supervisionato per i recuperatori neurali.
  • Il metodo genera pseudo query su documenti del dominio target.
  • L'articolo è disponibile su arXiv sotto Computer Science > Information Retrieval.

Entità

Istituzioni

  • arXiv
  • BEIR

Fonti