Framework di Ricompensa Consapevole dell'Incertezza per Prevenire il Reward Hacking nel RL
Un nuovo framework per l'apprendimento per rinforzo affronta il problema del reward hacking incorporando due tipi di incertezza: l'incertezza epistemica legata alla stima del valore e l'incertezza riguardante le preferenze umane. Questo metodo utilizza il disaccordo tra ensemble per rappresentare l'incertezza del modello e sfrutta la variabilità nelle annotazioni delle ricompense per tenere conto dell'incertezza delle preferenze. Un Filtro di Affidabilità adattivo, regolato per la confidenza, modula la selezione delle azioni per trovare un equilibrio tra sfruttamento e cautela. I risultati empirici provenienti da vari ambienti discreti mostrano una diminuzione dell'over-optimization e dei fallimenti nell'allineamento.
Fatti principali
- arXiv:2604.26360
- I sistemi di apprendimento per rinforzo tipicamente ottimizzano funzioni di ricompensa scalari assumendo una valutazione precisa.
- Gli obiettivi del mondo reale derivanti dalle preferenze umane sono spesso incerti e incoerenti.
- Il framework di ricompensa consapevole dell'incertezza a doppia fonte modella l'incertezza epistemica e quella delle preferenze.
- L'incertezza del modello è catturata tramite il disaccordo tra ensemble sulle previsioni del valore.
- L'incertezza delle preferenze deriva dalla variabilità nelle annotazioni delle ricompense.
- Un Filtro di Affidabilità regolato per la confidenza modula adattivamente la selezione delle azioni.
- Risultati empirici in molteplici ambienti discreti.
Entità
Istituzioni
- arXiv