Garanzie di Tasso Rapido per l'Apprendimento per Rinforzo Inverso

other · 2026-05-16

Un recente studio teorico introduce tassi statistici rapidi per l'apprendimento per rinforzo inverso min-max con regolarizzazione entropica (Min-Max-IRL) in MDP a orizzonte finito con classi di ricompensa lineari. I ricercatori dimostrano che, a livello di popolazione e con dinamiche deterministiche, la stima di massima verosimiglianza coincide con Min-Max-IRL. Sfruttando la pseudo-auto-concordanza della perdita Min-Max-IRL, rivelano che sia la divergenza KL a livello di traiettoria che l'errore quadratico dei parametri diminuiscono a un tasso di O(1/n), dove n rappresenta il numero di traiettorie esperte. Questi risultati sono applicabili anche in caso di misspecificazione e non richiedono ipotesi di esplorazione. Inoltre, la ricerca amplia la portata dell'identificabilità della ricompensa a spazi di Borel generali e presenta nuove intuizioni riguardo alle derivate della funzione valore soft-ottimale.

Fatti principali

arXiv:2605.14599v1
Apprendimento per rinforzo inverso min-max con regolarizzazione entropica
Classi di ricompensa lineari
MDP a orizzonte finito con spazi di stato e azione di Borel
Equivalenza tra MLE e Min-Max-IRL a livello di popolazione e con dinamiche deterministiche
Tasso rapido O(n^{-1}) per divergenza KL ed errore dei parametri
Nessuna ipotesi di esplorazione richiesta
Risultati applicabili in caso di misspecificazione

Garanzie di Tasso Rapido per l'Apprendimento per Rinforzo Inverso

Fatti principali

Entità

Istituzioni

Fonti