ARTFEED — Contemporary Art Intelligence

Apprendimento per Rinforzo Profondo Coerente con il Comportamento: Un Nuovo Quadro

other · 2026-05-22

Un nuovo articolo su arXiv (2605.21214v2) formalizza l'apprendimento per rinforzo coerente con il comportamento per affrontare la divergenza delle politiche tra esecuzioni. Gli autori propongono di utilizzare l'RL a massima entropia per ancorare le sessioni di addestramento a un prior uniforme comune, dimostrando che la temperatura proporzionale al disaccordo della funzione Q limita la divergenza KL a coppie per le politiche di Boltzmann. Avvertono che aumentare ingenuamente l'entropia può compromettere l'ottimizzazione e amplificare l'errore fuori politica, e introducono il Disaccordo Expectile del Valore Q come soluzione.

Fatti principali

  • Articolo arXiv:2605.21214v2
  • Tipo di annuncio: cross
  • Affronta la divergenza delle politiche tra esecuzioni nell'RL
  • Formalizza l'RL coerente con il comportamento
  • Utilizza l'RL a massima entropia con prior uniforme
  • Dimostra che la temperatura proporzionale al disaccordo della funzione Q limita la divergenza KL
  • Avverte contro l'aumento ingenuo dell'entropia
  • Propone il Disaccordo Expectile del Valore Q

Entità

Istituzioni

  • arXiv

Fonti