Quadro Unificato per RLHF Regolarizzato con f-Divergenza

ai-technology · 2026-05-11

È stato sviluppato un nuovo quadro teorico per l'Apprendimento per Rinforzo dal Feedback Umano (RLHF) con regolarizzazione generale della f-divergenza. Mentre i metodi RLHF esistenti utilizzano principalmente la regolarizzazione reverse KL, recenti lavori empirici hanno esplorato alternative come la forward KL e le divergenze chi-quadro. Questo studio fornisce un'analisi unificata sull'intera classe di funzioni di f-divergenza, proponendo due algoritmi basati su principi di campionamento distinti: uno estende il principio di ottimismo con un bonus di esplorazione, l'altro sfrutta la sensibilità dell'obiettivo. Il lavoro colma il divario nella comprensione teorica della regolarizzazione generale della f-divergenza nell'RLHF online.

Fatti principali

Il quadro copre la regolarizzazione generale della f-divergenza nell'RLHF.
Gli approcci esistenti si basano sulla regolarizzazione reverse KL.
Studi empirici recenti esplorano la forward KL e le divergenze chi-quadro.
Vengono proposti due algoritmi: uno basato sul principio di ottimismo, l'altro sullo sfruttamento della sensibilità.
Il lavoro fornisce un'analisi teorica unificata sull'intera classe di funzioni di f-divergenza.
Lo studio si concentra sull'RLHF online.
Gli algoritmi utilizzano principi di campionamento distinti.
Il quadro colma un divario nella comprensione teorica.

Entità

—

Fonti

arXiv cs.AI — 2026-05-11