Identificazione del Miglior Braccio in Banditi Lineari Generalizzati tramite Feedback Ibrido

other · 2026-05-09

Uno studio recente pubblicato su arXiv (2605.05745) esplora l'identificazione del miglior braccio a confidenza fissa in banditi lineari generalizzati attraverso un framework di feedback ibrido. In ogni round, il learner può optare per il feedback assoluto della ricompensa da un braccio o per il feedback relativo (duello) da una coppia di bracci, entrambi influenzati da modelli lineari generalizzati. I ricercatori presentano una sequenza di confidenza basata sul rapporto di verosimiglianza che integra diverse osservazioni lineari generalizzate, risultando in un insieme di confidenza ellissoidale chiaro basato su un presupposto di auto-concordanza. Introducono anche un algoritmo ibrido Track-and-Stop che alloca dinamicamente le query monitorando un disegno minimax-ottimale su uno spazio d'azione combinato di bracci e coppie. L'algoritmo è dimostrato essere δ-corretto, con limiti superiori ad alta probabilità sul tempo di arresto. Inoltre, il framework è adattato per considerare costi di acquisizione variabili tra i tipi di feedback, con test empirici a supporto della metodologia.

Fatti principali

Articolo su arXiv: 2605.05745
Studia l'identificazione del miglior braccio a confidenza fissa in banditi lineari generalizzati
Modello di feedback ibrido: ricompensa assoluta da un singolo braccio o feedback duello da una coppia di bracci
Sequenza di confidenza basata sul rapporto di verosimiglianza unifica osservazioni eterogenee
Insieme di confidenza ellissoidale sotto l'assunzione di auto-concordanza
Algoritmo ibrido Track-and-Stop alloca adattivamente le query
L'algoritmo è δ-corretto con limiti sul tempo di arresto ad alta probabilità
Esteso a un contesto sensibile ai costi con costi di acquisizione eterogenei

Identificazione del Miglior Braccio in Banditi Lineari Generalizzati tramite Feedback Ibrido

Fatti principali

Entità

Istituzioni

Fonti