Apprendimento per Rinforzo Inverso con Regione di Fiducia e Aggiornamenti Locali della Politica

other · 2026-05-13

Uno studio recente disponibile su arXiv (2605.11020) introduce un approccio all'apprendimento per rinforzo inverso (IRL) che garantisce un miglioramento consistente sia della politica che della funzione di ricompensa senza la necessità di risolvere un problema completo di apprendimento per rinforzo (RL) a ogni iterazione. Il tradizionale IRL a doppio ascesa offre prestazioni monotone ma richiede la risoluzione di un problema RL a ogni passo per derivare i gradienti duali. Mentre le tecniche avversariali eliminano questo requisito, compromettono la stabilità e la monotonicità del miglioramento duale. Il fondamentale progresso teorico è che una politica ottimale nella regione di fiducia per aggiornare la funzione di ricompensa può anche essere globalmente ottimale per un aggiornamento direzionale più piccolo, consentendo un'ottimizzazione duale esplicita attraverso aggiustamenti locali della politica.

Fatti principali

L'articolo arXiv 2605.11020 propone l'apprendimento per rinforzo inverso con regione di fiducia.
Il metodo colma il divario tra IRL classico a doppio ascesa e IRL avversariale.
Ottiene un miglioramento monotono senza risolvere un RL completo a ogni iterazione.
Utilizza aggiornamenti locali della politica per un'ottimizzazione duale esplicita.
Intuizione chiave: una politica ottimale nella regione di fiducia per un aggiornamento della ricompensa è globalmente ottimale per un aggiornamento più piccolo.
L'IRL classico richiede la risoluzione del problema RL a ogni iterazione.
L'IRL avversariale usa un discriminatore per le ricompense ma manca di miglioramento monotono.
L'articolo fornisce una garanzia teorica per il miglioramento duale monotono.

Apprendimento per Rinforzo Inverso con Regione di Fiducia e Aggiornamenti Locali della Politica

Fatti principali

Entità

Istituzioni

Fonti