ARTFEED — Contemporary Art Intelligence

SENIOR: Selezione Efficiente delle Query ed Esplorazione Guidata dalle Preferenze nel PbRL

other · 2026-05-23

Un nuovo metodo chiamato SENIOR migliora l'efficienza del feedback e dei campioni nell'apprendimento per rinforzo basato sulle preferenze. Utilizza uno schema di selezione basato sulla distinzione del movimento (MDS) per scegliere coppie di segmenti comportamentali con movimento chiaro e direzioni distinte, facilitando l'etichettatura umana. Un metodo di esplorazione guidata dalle preferenze (PGE) accelera l'apprendimento della politica tramite ricompense intrinseche. L'approccio affronta i principali colli di bottiglia nelle applicazioni PbRL.

Fatti principali

  • SENIOR è un metodo per l'apprendimento per rinforzo basato sulle preferenze.
  • Migliora l'efficienza del feedback umano e dei campioni.
  • MDS seleziona coppie di segmenti con movimento apparente e direzioni diverse.
  • MDS utilizza la stima della densità del kernel degli stati.
  • PGE è un metodo di esplorazione guidata dalle preferenze.
  • PGE incoraggia l'esplorazione utilizzando ricompense intrinseche.
  • L'articolo proviene da arXiv:2506.14648v2.
  • Il metodo evita l'ingegneria delle ricompense.

Entità

Istituzioni

  • arXiv

Fonti