Nuovi Algoritmi per Dueling Bandits con Feedback Ritardato
Un team di ricercatori ha definito ufficialmente il problema dei Contextual Dueling Bandits con Feedback Ritardato Stocastico, affrontando una sfida significativa nei framework decisionali basati sulle preferenze, inclusi i sistemi di raccomandazione e l'allineamento dei LLM. I metodi tradizionali di dueling bandit si basano su feedback immediato, che spesso non è fattibile in situazioni come l'ottimizzazione dei prompt. Questo ritardo può portare a bias, poiché gli stimatori dei dueling bandit non hanno soluzioni in forma chiusa, rendendo inefficaci semplici adattamenti dei metodi di ponderazione. Per affrontare questo problema, gli autori introducono due algoritmi innovativi: Linear Dueling Bandits with Delayed Feedback (LDB-DF) e Neural Dueling Bandits with Delayed Feedback (NDB-DF). La loro strategia presenta un nuovo stimatore che incorpora un meccanismo di Inverse Probability Weighting (IPW) nella funzione di perdita, facilitando aggiustamenti imparziali per feedback ritardati o assenti. Questa ricerca è disponibile su arXiv con l'identificatore 2605.26554.
Fatti principali
- I dueling bandits contestuali sono utilizzati nei sistemi di raccomandazione e nell'allineamento dei LLM.
- Gli algoritmi standard presuppongono un feedback immediato, cosa spesso violata.
- Il feedback ritardato introduce bias a causa della mancanza di stimatori in forma chiusa.
- Due nuovi algoritmi proposti: LDB-DF e NDB-DF.
- Un nuovo stimatore basato su IPW corregge il feedback ritardato o mancante.
- Il problema è formalizzato come Contextual Dueling Bandits con Feedback Ritardato Stocastico.
- La ricerca è disponibile su arXiv (2605.26554).
- Il lavoro affronta una sfida teorica unica nei dueling bandit.
Entità
Istituzioni
- arXiv