Garanzie di Privacy Differenziale per RL con Approssimazione Generale di Funzioni

other · 2026-05-11

Un quadro teorico recentemente proposto introduce le prime garanzie di privacy differenziale per l'apprendimento per rinforzo online che utilizza l'approssimazione generale di funzioni, superando i precedenti quadri tabulari e lineari. Questo metodo integra aggiornamenti batch delle politiche con il meccanismo esponenziale insieme a un'innovativa analisi del regret, raggiungendo un scaling del regret di Õ(K^{3/5}) in un contesto model-free, che si allinea con i limiti superiori nello scenario lineare. Inoltre, questa ricerca presenta il primo bound del regret per RL online che utilizza aggiornamenti batch influenzato dalla misura di complessità di copertura, complementando i risultati basati sulla classe Eluder-Condition. Gli autori evidenziano anche significative lacune in recenti risultati riguardanti RL privato con approssimazione lineare di funzioni.

Fatti principali

Prime garanzie teoriche per RL online con privacy differenziale e approssimazione generale di funzioni
Combina schema di aggiornamento batch delle politiche con meccanismo esponenziale
Il regret scala come Õ(K^{3/5}) in contesto model-free sotto privacy differenziale
Corrisponde allo stato dell'arte per il caso lineare
Primo bound del regret per RL online con aggiornamento batch dipendente dalla copertura
Scopre lacune in recenti risultati per RL privato con approssimazione lineare di funzioni
Si estende oltre i contesti tabulari e lineari
Pubblicato su arXiv con ID 2605.07049

Garanzie di Privacy Differenziale per RL con Approssimazione Generale di Funzioni

Fatti principali

Entità

Istituzioni

Fonti