Controllo a Politica Chiusa per Attori RL Offline Congelati

other · 2026-04-29

Una recente pubblicazione su arXiv (2604.22873) presenta una strategia innovativa a forma chiusa per modificare politiche di apprendimento per rinforzo (RL) offline congelate durante il dispiegamento, senza necessità di riaddestramento. Questa tecnica impiega la composizione di Esperti di Prodotto (PoE) insieme a un prior condizionato all'obiettivo. Un'importante intuizione rivela che la composizione pesata per precisione mantiene la stabilità anche con prior degradati o casuali, rimanendo connessa all'attore congelato, mentre gli adattamenti additivi e basati solo sul prior falliscono. Il selettore di budget KL raggiunge spesso prestazioni vicine a un oracolo. Per attori e prior gaussiani diagonali, PoE con un coefficiente alfa produce la stessa politica deterministica dell'adattamento regolarizzato KL con beta impostato su alfa / (1 - alfa). Questa ricerca affronta situazioni in cui il riaddestramento è impraticabile a causa di limitazioni nei dati, nei costi o nella governance.

Fatti principali

Articolo arXiv 2604.22873
Adattamento di politiche RL offline senza riaddestramento
Composizione di Esperti di Prodotto con prior condizionato all'obiettivo
La composizione pesata per precisione mostra un degrado graduale
Gli adattamenti additivi e basati solo sul prior collassano con prior degradati
Il selettore di budget KL recupera un punto operativo quasi-oracolare
Identità a forma chiusa: PoE con alfa equivale a KL-regularizzato con beta = alfa/(1-alfa)
Ambiente di attore congelato per distribuzioni gaussiane diagonali

Controllo a Politica Chiusa per Attori RL Offline Congelati

Fatti principali

Entità

Istituzioni

Fonti