Annealed Softmax Greedy Raggiunge un Regret Quasi-Ottimale nei Banditi a Molte Braccia
Un nuovo articolo su arXiv (2605.31034) studia perché gli aggiornamenti di policy che ignorano l'incertezza nell'apprendimento per rinforzo con ricompense verificabili (RLVR) e metodi basati su gruppi come GRPO possano comunque essere efficaci. Gli autori analizzano una policy softmax annealed (Boltzmann) in un contesto di banditi bayesiani Bernoulli a molte braccia. Sotto una condizione lineare di coda superiore sulla prior (caso β=1 della β-regolarità), che implica molte braccia quasi ottimali, dimostrano che annealed softmax greedy raggiunge un Bayes regret di Õ(m + T/m), e in particolare Õ(√T) quando il numero di braccia m è scelto opportunamente. Il lavoro fornisce una spiegazione teorica per il successo empirico di tali aggiornamenti senza un esplicito tracciamento dell'incertezza epistemica.
Fatti principali
- Articolo su arXiv: 2605.31034
- Studia annealed softmax greedy nei banditi bayesiani a molte braccia
- Dimostra Bayes regret Õ(m + T/m) sotto condizione lineare di coda superiore sulla prior
- Raggiunge regret Õ(√T) con numero ottimale di braccia
- Fornisce base teorica per aggiornamenti stile RLVR e GRPO
Entità
Istituzioni
- arXiv