ARTFEED — Contemporary Art Intelligence

Identificazione del Miglior Braccio in Banditi Lineari Generalizzati tramite Feedback Ibrido

other · 2026-05-09

Uno studio recente pubblicato su arXiv (2605.05745) esplora l'identificazione del miglior braccio a confidenza fissa in banditi lineari generalizzati attraverso un framework di feedback ibrido. In ogni round, il learner può optare per il feedback assoluto della ricompensa da un braccio o per il feedback relativo (duello) da una coppia di bracci, entrambi influenzati da modelli lineari generalizzati. I ricercatori presentano una sequenza di confidenza basata sul rapporto di verosimiglianza che integra diverse osservazioni lineari generalizzate, risultando in un insieme di confidenza ellissoidale chiaro basato su un presupposto di auto-concordanza. Introducono anche un algoritmo ibrido Track-and-Stop che alloca dinamicamente le query monitorando un disegno minimax-ottimale su uno spazio d'azione combinato di bracci e coppie. L'algoritmo è dimostrato essere δ-corretto, con limiti superiori ad alta probabilità sul tempo di arresto. Inoltre, il framework è adattato per considerare costi di acquisizione variabili tra i tipi di feedback, con test empirici a supporto della metodologia.

Fatti principali

  • Articolo su arXiv: 2605.05745
  • Studia l'identificazione del miglior braccio a confidenza fissa in banditi lineari generalizzati
  • Modello di feedback ibrido: ricompensa assoluta da un singolo braccio o feedback duello da una coppia di bracci
  • Sequenza di confidenza basata sul rapporto di verosimiglianza unifica osservazioni eterogenee
  • Insieme di confidenza ellissoidale sotto l'assunzione di auto-concordanza
  • Algoritmo ibrido Track-and-Stop alloca adattivamente le query
  • L'algoritmo è δ-corretto con limiti sul tempo di arresto ad alta probabilità
  • Esteso a un contesto sensibile ai costi con costi di acquisizione eterogenei

Entità

Istituzioni

  • arXiv

Fonti