ARTFEED — Contemporary Art Intelligence

Controllo a Politica Chiusa per Attori RL Offline Congelati

other · 2026-04-29

Una recente pubblicazione su arXiv (2604.22873) presenta una strategia innovativa a forma chiusa per modificare politiche di apprendimento per rinforzo (RL) offline congelate durante il dispiegamento, senza necessità di riaddestramento. Questa tecnica impiega la composizione di Esperti di Prodotto (PoE) insieme a un prior condizionato all'obiettivo. Un'importante intuizione rivela che la composizione pesata per precisione mantiene la stabilità anche con prior degradati o casuali, rimanendo connessa all'attore congelato, mentre gli adattamenti additivi e basati solo sul prior falliscono. Il selettore di budget KL raggiunge spesso prestazioni vicine a un oracolo. Per attori e prior gaussiani diagonali, PoE con un coefficiente alfa produce la stessa politica deterministica dell'adattamento regolarizzato KL con beta impostato su alfa / (1 - alfa). Questa ricerca affronta situazioni in cui il riaddestramento è impraticabile a causa di limitazioni nei dati, nei costi o nella governance.

Fatti principali

  • Articolo arXiv 2604.22873
  • Adattamento di politiche RL offline senza riaddestramento
  • Composizione di Esperti di Prodotto con prior condizionato all'obiettivo
  • La composizione pesata per precisione mostra un degrado graduale
  • Gli adattamenti additivi e basati solo sul prior collassano con prior degradati
  • Il selettore di budget KL recupera un punto operativo quasi-oracolare
  • Identità a forma chiusa: PoE con alfa equivale a KL-regularizzato con beta = alfa/(1-alfa)
  • Ambiente di attore congelato per distribuzioni gaussiane diagonali

Entità

Istituzioni

  • arXiv

Fonti