Campionamento Best-of-N nell'Apprendimento delle Ricompense: Obiettivi e Compromessi
Una nuova analisi esamina come il campionamento Best-of-N costruisce dati di preferenza a coppie per l'apprendimento delle ricompense Bradley-Terry. Lo studio deriva obiettivi di ricompensa in forma chiusa per varianti a riferimento indipendente, mostrando che preservano la classificazione della ricompensa latente. Per varianti accoppiate come Best-vs-Random e Best-vs-Worst, la rappresentabilità esatta fallisce ma i minimizzatori di classe limitata si avvicinano agli obiettivi di riferimento al crescere di N. Il lavoro chiarisce il ruolo di N e della distribuzione di base nella costruzione dei dati di preferenza.
Fatti principali
- Il campionamento Best-of-N è ampiamente utilizzato per costruire dati di preferenza a coppie
- N candidati sono estratti da una distribuzione di base, il migliore è abbinato alla risposta rifiutata
- L'analisi specializza uno studio recente sui dati di preferenza tramite distribuzione condizionale indotta
- Obiettivi di ricompensa in forma chiusa derivati per varianti a riferimento indipendente
- Gli obiettivi preservano la classificazione della ricompensa latente
- Le varianti Best-vs-Random e Best-vs-Worst accoppiano risposte scelte e rifiutate
- La rappresentabilità esatta BT generalmente fallisce per varianti accoppiate
- I minimizzatori di classe limitata si avvicinano agli obiettivi di riferimento al crescere di N
Entità
Istituzioni
- arXiv