L'equivalenza tra DPO e RLHF è condizionale, non universale
Un recente studio pubblicato su arXiv dimostra che l'ottimizzazione diretta delle preferenze (DPO) non è sempre equivalente all'apprendimento per rinforzo dal feedback umano (RLHF). Questa equivalenza si basa su una premessa implicita secondo cui la politica ottimale in RLHF dovrebbe favorire le risposte preferite dagli umani. Quando questa premessa non è soddisfatta, DPO si concentra sull'ottimizzazione del vantaggio relativo rispetto alla politica di riferimento invece di raggiungere un allineamento assoluto con le preferenze umane. Ciò può portare a una convergenza problematica, in cui le politiche riducono la perdita di DPO pur continuando a favorire risposte meno desiderabili. Gli autori identificano le condizioni in cui questa assunzione fallisce, rivelano uno spazio di soluzioni indesiderabile e stabiliscono che DPO e RLHF perseguono obiettivi fondamentalmente diversi in questi scenari. Per rimediare, propongono l'ottimizzazione delle preferenze vincolata (CPO), che potenzia RLHF con vincoli di allineamento.
Fatti principali
- L'equivalenza tra DPO e RLHF è condizionale, non universale.
- L'equivalenza dipende da un'assunzione implicita spesso violata nella pratica.
- Quando l'assunzione fallisce, DPO ottimizza il vantaggio relativo rispetto alla politica di riferimento.
- Convergenza patologica: le politiche riducono la perdita di DPO pur preferendo risposte non gradite.
- Gli autori caratterizzano quando l'assunzione è violata.
- Esiste uno spazio di soluzioni indesiderabile.
- DPO e RLHF ottimizzano obiettivi fondamentalmente diversi in tali casi.
- Viene introdotta l'ottimizzazione delle preferenze vincolata (CPO) per un allineamento dimostrabile.
Entità
Istituzioni
- arXiv