ARTFEED — Contemporary Art Intelligence

Quadro Unificato per RLHF Regolarizzato con f-Divergenza

ai-technology · 2026-05-11

È stato sviluppato un nuovo quadro teorico per l'Apprendimento per Rinforzo dal Feedback Umano (RLHF) con regolarizzazione generale della f-divergenza. Mentre i metodi RLHF esistenti utilizzano principalmente la regolarizzazione reverse KL, recenti lavori empirici hanno esplorato alternative come la forward KL e le divergenze chi-quadro. Questo studio fornisce un'analisi unificata sull'intera classe di funzioni di f-divergenza, proponendo due algoritmi basati su principi di campionamento distinti: uno estende il principio di ottimismo con un bonus di esplorazione, l'altro sfrutta la sensibilità dell'obiettivo. Il lavoro colma il divario nella comprensione teorica della regolarizzazione generale della f-divergenza nell'RLHF online.

Fatti principali

  • Il quadro copre la regolarizzazione generale della f-divergenza nell'RLHF.
  • Gli approcci esistenti si basano sulla regolarizzazione reverse KL.
  • Studi empirici recenti esplorano la forward KL e le divergenze chi-quadro.
  • Vengono proposti due algoritmi: uno basato sul principio di ottimismo, l'altro sullo sfruttamento della sensibilità.
  • Il lavoro fornisce un'analisi teorica unificata sull'intera classe di funzioni di f-divergenza.
  • Lo studio si concentra sull'RLHF online.
  • Gli algoritmi utilizzano principi di campionamento distinti.
  • Il quadro colma un divario nella comprensione teorica.

Entità

Fonti