ARTFEED — Contemporary Art Intelligence

Campionamento Best-of-N nell'Apprendimento delle Ricompense: Obiettivi e Compromessi

other · 2026-06-01

Una nuova analisi esamina come il campionamento Best-of-N costruisce dati di preferenza a coppie per l'apprendimento delle ricompense Bradley-Terry. Lo studio deriva obiettivi di ricompensa in forma chiusa per varianti a riferimento indipendente, mostrando che preservano la classificazione della ricompensa latente. Per varianti accoppiate come Best-vs-Random e Best-vs-Worst, la rappresentabilità esatta fallisce ma i minimizzatori di classe limitata si avvicinano agli obiettivi di riferimento al crescere di N. Il lavoro chiarisce il ruolo di N e della distribuzione di base nella costruzione dei dati di preferenza.

Fatti principali

  • Il campionamento Best-of-N è ampiamente utilizzato per costruire dati di preferenza a coppie
  • N candidati sono estratti da una distribuzione di base, il migliore è abbinato alla risposta rifiutata
  • L'analisi specializza uno studio recente sui dati di preferenza tramite distribuzione condizionale indotta
  • Obiettivi di ricompensa in forma chiusa derivati per varianti a riferimento indipendente
  • Gli obiettivi preservano la classificazione della ricompensa latente
  • Le varianti Best-vs-Random e Best-vs-Worst accoppiano risposte scelte e rifiutate
  • La rappresentabilità esatta BT generalmente fallisce per varianti accoppiate
  • I minimizzatori di classe limitata si avvicinano agli obiettivi di riferimento al crescere di N

Entità

Istituzioni

  • arXiv

Fonti