Banditi a Basso Rango con Deriva del Sottospazio: Limiti Stretti
Uno studio recente pubblicato su arXiv (2605.20269) esamina i banditi contestuali lineari a basso rango caratterizzati da un sottospazio latente non stazionario che si sposta in corrispondenza di confini di segmento sconosciuti. I ricercatori dimostrano l'identificazione precisa e limiti di regret, indicando che il recupero del sottospazio richiede tre condizioni di sonda: varianza del rumore nota, accoppiamento limitato stato-rumore e supporto di sonda completo. Inoltre, derivano un limite inferiore minimax di Ω(r√(KT)) e introducono un algoritmo che raggiunge un regret Õ(r√(KT)), che si allinea con il limite inferiore, a parte fattori logaritmici.
Fatti principali
- Articolo arXiv:2605.20269
- Studia banditi contestuali lineari a basso rango stazionari a tratti
- Le ricompense risiedono in un sottospazio latente a bassa dimensionalità che deriva
- Tre condizioni necessarie per l'identificazione del sottospazio
- Limite inferiore minimax Ω(r√(KT))
- L'algoritmo raggiunge un regret Õ(r√(KT))
- Limiti stretti lungo tre assi
- Ricompense scalari a giocata singola
Entità
Istituzioni
- arXiv