Garanzie di Privacy Differenziale per RL con Approssimazione Generale di Funzioni
Un quadro teorico recentemente proposto introduce le prime garanzie di privacy differenziale per l'apprendimento per rinforzo online che utilizza l'approssimazione generale di funzioni, superando i precedenti quadri tabulari e lineari. Questo metodo integra aggiornamenti batch delle politiche con il meccanismo esponenziale insieme a un'innovativa analisi del regret, raggiungendo un scaling del regret di Õ(K^{3/5}) in un contesto model-free, che si allinea con i limiti superiori nello scenario lineare. Inoltre, questa ricerca presenta il primo bound del regret per RL online che utilizza aggiornamenti batch influenzato dalla misura di complessità di copertura, complementando i risultati basati sulla classe Eluder-Condition. Gli autori evidenziano anche significative lacune in recenti risultati riguardanti RL privato con approssimazione lineare di funzioni.
Fatti principali
- Prime garanzie teoriche per RL online con privacy differenziale e approssimazione generale di funzioni
- Combina schema di aggiornamento batch delle politiche con meccanismo esponenziale
- Il regret scala come Õ(K^{3/5}) in contesto model-free sotto privacy differenziale
- Corrisponde allo stato dell'arte per il caso lineare
- Primo bound del regret per RL online con aggiornamento batch dipendente dalla copertura
- Scopre lacune in recenti risultati per RL privato con approssimazione lineare di funzioni
- Si estende oltre i contesti tabulari e lineari
- Pubblicato su arXiv con ID 2605.07049
Entità
Istituzioni
- arXiv