ARTFEED — Contemporary Art Intelligence

Garanzie di Privacy Differenziale per RL con Approssimazione Generale di Funzioni

other · 2026-05-11

Un quadro teorico recentemente proposto introduce le prime garanzie di privacy differenziale per l'apprendimento per rinforzo online che utilizza l'approssimazione generale di funzioni, superando i precedenti quadri tabulari e lineari. Questo metodo integra aggiornamenti batch delle politiche con il meccanismo esponenziale insieme a un'innovativa analisi del regret, raggiungendo un scaling del regret di Õ(K^{3/5}) in un contesto model-free, che si allinea con i limiti superiori nello scenario lineare. Inoltre, questa ricerca presenta il primo bound del regret per RL online che utilizza aggiornamenti batch influenzato dalla misura di complessità di copertura, complementando i risultati basati sulla classe Eluder-Condition. Gli autori evidenziano anche significative lacune in recenti risultati riguardanti RL privato con approssimazione lineare di funzioni.

Fatti principali

  • Prime garanzie teoriche per RL online con privacy differenziale e approssimazione generale di funzioni
  • Combina schema di aggiornamento batch delle politiche con meccanismo esponenziale
  • Il regret scala come Õ(K^{3/5}) in contesto model-free sotto privacy differenziale
  • Corrisponde allo stato dell'arte per il caso lineare
  • Primo bound del regret per RL online con aggiornamento batch dipendente dalla copertura
  • Scopre lacune in recenti risultati per RL privato con approssimazione lineare di funzioni
  • Si estende oltre i contesti tabulari e lineari
  • Pubblicato su arXiv con ID 2605.07049

Entità

Istituzioni

  • arXiv

Fonti