Apprendimento per Rinforzo Profondo Coerente con il Comportamento: Un Nuovo Quadro
Un nuovo articolo su arXiv (2605.21214v2) formalizza l'apprendimento per rinforzo coerente con il comportamento per affrontare la divergenza delle politiche tra esecuzioni. Gli autori propongono di utilizzare l'RL a massima entropia per ancorare le sessioni di addestramento a un prior uniforme comune, dimostrando che la temperatura proporzionale al disaccordo della funzione Q limita la divergenza KL a coppie per le politiche di Boltzmann. Avvertono che aumentare ingenuamente l'entropia può compromettere l'ottimizzazione e amplificare l'errore fuori politica, e introducono il Disaccordo Expectile del Valore Q come soluzione.
Fatti principali
- Articolo arXiv:2605.21214v2
- Tipo di annuncio: cross
- Affronta la divergenza delle politiche tra esecuzioni nell'RL
- Formalizza l'RL coerente con il comportamento
- Utilizza l'RL a massima entropia con prior uniforme
- Dimostra che la temperatura proporzionale al disaccordo della funzione Q limita la divergenza KL
- Avverte contro l'aumento ingenuo dell'entropia
- Propone il Disaccordo Expectile del Valore Q
Entità
Istituzioni
- arXiv