Nuovi Algoritmi per Dueling Bandits con Feedback Ritardato

ai-technology · 2026-05-27

Un team di ricercatori ha definito ufficialmente il problema dei Contextual Dueling Bandits con Feedback Ritardato Stocastico, affrontando una sfida significativa nei framework decisionali basati sulle preferenze, inclusi i sistemi di raccomandazione e l'allineamento dei LLM. I metodi tradizionali di dueling bandit si basano su feedback immediato, che spesso non è fattibile in situazioni come l'ottimizzazione dei prompt. Questo ritardo può portare a bias, poiché gli stimatori dei dueling bandit non hanno soluzioni in forma chiusa, rendendo inefficaci semplici adattamenti dei metodi di ponderazione. Per affrontare questo problema, gli autori introducono due algoritmi innovativi: Linear Dueling Bandits with Delayed Feedback (LDB-DF) e Neural Dueling Bandits with Delayed Feedback (NDB-DF). La loro strategia presenta un nuovo stimatore che incorpora un meccanismo di Inverse Probability Weighting (IPW) nella funzione di perdita, facilitando aggiustamenti imparziali per feedback ritardati o assenti. Questa ricerca è disponibile su arXiv con l'identificatore 2605.26554.

Fatti principali

I dueling bandits contestuali sono utilizzati nei sistemi di raccomandazione e nell'allineamento dei LLM.
Gli algoritmi standard presuppongono un feedback immediato, cosa spesso violata.
Il feedback ritardato introduce bias a causa della mancanza di stimatori in forma chiusa.
Due nuovi algoritmi proposti: LDB-DF e NDB-DF.
Un nuovo stimatore basato su IPW corregge il feedback ritardato o mancante.
Il problema è formalizzato come Contextual Dueling Bandits con Feedback Ritardato Stocastico.
La ricerca è disponibile su arXiv (2605.26554).
Il lavoro affronta una sfida teorica unica nei dueling bandit.

Nuovi Algoritmi per Dueling Bandits con Feedback Ritardato

Fatti principali

Entità

Istituzioni

Fonti