Annealed Softmax Greedy Raggiunge un Regret Quasi-Ottimale nei Banditi a Molte Braccia

other · 2026-06-01

Un nuovo articolo su arXiv (2605.31034) studia perché gli aggiornamenti di policy che ignorano l'incertezza nell'apprendimento per rinforzo con ricompense verificabili (RLVR) e metodi basati su gruppi come GRPO possano comunque essere efficaci. Gli autori analizzano una policy softmax annealed (Boltzmann) in un contesto di banditi bayesiani Bernoulli a molte braccia. Sotto una condizione lineare di coda superiore sulla prior (caso β=1 della β-regolarità), che implica molte braccia quasi ottimali, dimostrano che annealed softmax greedy raggiunge un Bayes regret di Õ(m + T/m), e in particolare Õ(√T) quando il numero di braccia m è scelto opportunamente. Il lavoro fornisce una spiegazione teorica per il successo empirico di tali aggiornamenti senza un esplicito tracciamento dell'incertezza epistemica.

Fatti principali

Articolo su arXiv: 2605.31034
Studia annealed softmax greedy nei banditi bayesiani a molte braccia
Dimostra Bayes regret Õ(m + T/m) sotto condizione lineare di coda superiore sulla prior
Raggiunge regret Õ(√T) con numero ottimale di braccia
Fornisce base teorica per aggiornamenti stile RLVR e GRPO

Annealed Softmax Greedy Raggiunge un Regret Quasi-Ottimale nei Banditi a Molte Braccia

Fatti principali

Entità

Istituzioni

Fonti