Apprendimento per Rinforzo Profondo Coerente con il Comportamento: Un Nuovo Quadro

other · 2026-05-22

Un nuovo articolo su arXiv (2605.21214v2) formalizza l'apprendimento per rinforzo coerente con il comportamento per affrontare la divergenza delle politiche tra esecuzioni. Gli autori propongono di utilizzare l'RL a massima entropia per ancorare le sessioni di addestramento a un prior uniforme comune, dimostrando che la temperatura proporzionale al disaccordo della funzione Q limita la divergenza KL a coppie per le politiche di Boltzmann. Avvertono che aumentare ingenuamente l'entropia può compromettere l'ottimizzazione e amplificare l'errore fuori politica, e introducono il Disaccordo Expectile del Valore Q come soluzione.

Fatti principali

Articolo arXiv:2605.21214v2
Tipo di annuncio: cross
Affronta la divergenza delle politiche tra esecuzioni nell'RL
Formalizza l'RL coerente con il comportamento
Utilizza l'RL a massima entropia con prior uniforme
Dimostra che la temperatura proporzionale al disaccordo della funzione Q limita la divergenza KL
Avverte contro l'aumento ingenuo dell'entropia
Propone il Disaccordo Expectile del Valore Q

Apprendimento per Rinforzo Profondo Coerente con il Comportamento: Un Nuovo Quadro

Fatti principali

Entità

Istituzioni

Fonti