SENIOR: Selezione Efficiente delle Query ed Esplorazione Guidata dalle Preferenze nel PbRL
Un nuovo metodo chiamato SENIOR migliora l'efficienza del feedback e dei campioni nell'apprendimento per rinforzo basato sulle preferenze. Utilizza uno schema di selezione basato sulla distinzione del movimento (MDS) per scegliere coppie di segmenti comportamentali con movimento chiaro e direzioni distinte, facilitando l'etichettatura umana. Un metodo di esplorazione guidata dalle preferenze (PGE) accelera l'apprendimento della politica tramite ricompense intrinseche. L'approccio affronta i principali colli di bottiglia nelle applicazioni PbRL.
Fatti principali
- SENIOR è un metodo per l'apprendimento per rinforzo basato sulle preferenze.
- Migliora l'efficienza del feedback umano e dei campioni.
- MDS seleziona coppie di segmenti con movimento apparente e direzioni diverse.
- MDS utilizza la stima della densità del kernel degli stati.
- PGE è un metodo di esplorazione guidata dalle preferenze.
- PGE incoraggia l'esplorazione utilizzando ricompense intrinseche.
- L'articolo proviene da arXiv:2506.14648v2.
- Il metodo evita l'ingegneria delle ricompense.
Entità
Istituzioni
- arXiv