Campionamento Best-of-N nell'Apprendimento delle Ricompense: Obiettivi e Compromessi

other · 2026-06-01

Una nuova analisi esamina come il campionamento Best-of-N costruisce dati di preferenza a coppie per l'apprendimento delle ricompense Bradley-Terry. Lo studio deriva obiettivi di ricompensa in forma chiusa per varianti a riferimento indipendente, mostrando che preservano la classificazione della ricompensa latente. Per varianti accoppiate come Best-vs-Random e Best-vs-Worst, la rappresentabilità esatta fallisce ma i minimizzatori di classe limitata si avvicinano agli obiettivi di riferimento al crescere di N. Il lavoro chiarisce il ruolo di N e della distribuzione di base nella costruzione dei dati di preferenza.

Fatti principali

Il campionamento Best-of-N è ampiamente utilizzato per costruire dati di preferenza a coppie
N candidati sono estratti da una distribuzione di base, il migliore è abbinato alla risposta rifiutata
L'analisi specializza uno studio recente sui dati di preferenza tramite distribuzione condizionale indotta
Obiettivi di ricompensa in forma chiusa derivati per varianti a riferimento indipendente
Gli obiettivi preservano la classificazione della ricompensa latente
Le varianti Best-vs-Random e Best-vs-Worst accoppiano risposte scelte e rifiutate
La rappresentabilità esatta BT generalmente fallisce per varianti accoppiate
I minimizzatori di classe limitata si avvicinano agli obiettivi di riferimento al crescere di N

Campionamento Best-of-N nell'Apprendimento delle Ricompense: Obiettivi e Compromessi

Fatti principali

Entità

Istituzioni

Fonti