SENIOR: Selezione Efficiente delle Query ed Esplorazione Guidata dalle Preferenze nel PbRL

other · 2026-05-23

Un nuovo metodo chiamato SENIOR migliora l'efficienza del feedback e dei campioni nell'apprendimento per rinforzo basato sulle preferenze. Utilizza uno schema di selezione basato sulla distinzione del movimento (MDS) per scegliere coppie di segmenti comportamentali con movimento chiaro e direzioni distinte, facilitando l'etichettatura umana. Un metodo di esplorazione guidata dalle preferenze (PGE) accelera l'apprendimento della politica tramite ricompense intrinseche. L'approccio affronta i principali colli di bottiglia nelle applicazioni PbRL.

Fatti principali

SENIOR è un metodo per l'apprendimento per rinforzo basato sulle preferenze.
Migliora l'efficienza del feedback umano e dei campioni.
MDS seleziona coppie di segmenti con movimento apparente e direzioni diverse.
MDS utilizza la stima della densità del kernel degli stati.
PGE è un metodo di esplorazione guidata dalle preferenze.
PGE incoraggia l'esplorazione utilizzando ricompense intrinseche.
L'articolo proviene da arXiv:2506.14648v2.
Il metodo evita l'ingegneria delle ricompense.

SENIOR: Selezione Efficiente delle Query ed Esplorazione Guidata dalle Preferenze nel PbRL

Fatti principali

Entità

Istituzioni

Fonti