Esplorazione Guidata dal Diletto: Una Nuova Euristica per Problemi Bandit

other · 2026-05-14

Un nuovo algoritmo noto come esplorazione guidata dal diletto (DE) è stato introdotto per l'apprendimento per rinforzo e le sfide bandit in cui lo spazio delle azioni è eccessivamente grande per essere esplorato completamente entro un budget dato. DE incorpora un meccanismo di override host che alloca azioni esplorative solo quando il diletto anticipato—calcolato come miglioramento atteso moltiplicato per la sorpresa—supera un prezzo di gate predeterminato. Questo approccio ripristina il principio del valore di riserva di Pandora per ricerche costose, con la sorpresa che determina il costo effettivo dell'ispezione. I bracci risolti possono uscire dal gate, mentre i nuovi bracci sono limitati al di sopra di una soglia fissata, e gli override lineari bandit selezionati utilizzano un budget informativo limitato. DE mostra una crescita del rimpianto significativamente inferiore rispetto al Thompson Sampling e ε-greedy su bandit bernoulliani, bandit lineari e MDP tabellari, con gli stessi iperparametri applicabili senza riottimizzazione. La ricerca è disponibile su arXiv con l'identificatore 2605.13287.

Fatti principali

DE è una regola di override host per l'esplorazione.
Il diletto è definito come miglioramento atteso moltiplicato per la sorpresa.
DE recupera la regola del valore di riserva di Pandora.
La sorpresa imposta il costo effettivo dell'ispezione.
I bracci risolti escono dal gate.
I bracci freschi vengono spenti al di sopra di una soglia predeterminata.
Gli iperparametri si trasferiscono tra bandit bernoulliani, bandit lineari e MDP tabellari senza riottimizzazione.
DE mostra una crescita del rimpianto più debole rispetto al Thompson Sampling e ε-greedy.

Esplorazione Guidata dal Diletto: Una Nuova Euristica per Problemi Bandit

Fatti principali

Entità

Istituzioni

Fonti