ARTFEED — Contemporary Art Intelligence

Garanzie di Tasso Rapido per l'Apprendimento per Rinforzo Inverso

other · 2026-05-16

Un recente studio teorico introduce tassi statistici rapidi per l'apprendimento per rinforzo inverso min-max con regolarizzazione entropica (Min-Max-IRL) in MDP a orizzonte finito con classi di ricompensa lineari. I ricercatori dimostrano che, a livello di popolazione e con dinamiche deterministiche, la stima di massima verosimiglianza coincide con Min-Max-IRL. Sfruttando la pseudo-auto-concordanza della perdita Min-Max-IRL, rivelano che sia la divergenza KL a livello di traiettoria che l'errore quadratico dei parametri diminuiscono a un tasso di O(1/n), dove n rappresenta il numero di traiettorie esperte. Questi risultati sono applicabili anche in caso di misspecificazione e non richiedono ipotesi di esplorazione. Inoltre, la ricerca amplia la portata dell'identificabilità della ricompensa a spazi di Borel generali e presenta nuove intuizioni riguardo alle derivate della funzione valore soft-ottimale.

Fatti principali

  • arXiv:2605.14599v1
  • Apprendimento per rinforzo inverso min-max con regolarizzazione entropica
  • Classi di ricompensa lineari
  • MDP a orizzonte finito con spazi di stato e azione di Borel
  • Equivalenza tra MLE e Min-Max-IRL a livello di popolazione e con dinamiche deterministiche
  • Tasso rapido O(n^{-1}) per divergenza KL ed errore dei parametri
  • Nessuna ipotesi di esplorazione richiesta
  • Risultati applicabili in caso di misspecificazione

Entità

Istituzioni

  • arXiv

Fonti