ξ-DPO: Un Nuovo Metodo di Ottimizzazione delle Preferenze per LLM
I ricercatori propongono ξ-DPO (Direct Preference Optimization via Ratio Reward Margin) come soluzione alle sfide di ottimizzazione degli iperparametri nell'ottimizzazione delle preferenze senza riferimento per modelli linguistici di grandi dimensioni. Il metodo affronta i problemi di SimPO (Simple Preference Optimization), dove la regolazione congiunta di β e γ è difficile a causa della formulazione del margine non interpretabile tra i dataset. L'analisi mostra che β controlla implicitamente il filtraggio dei campioni, mentre l'effetto di γ dipende dalla struttura del divario di ricompensa. ξ-DPO riformula l'obiettivo di preferenza utilizzando una trasformazione equivalente per migliorare l'interpretabilità e le prestazioni. L'articolo è disponibile su arXiv con ID 2605.10981.
Fatti principali
- ξ-DPO è un nuovo metodo di ottimizzazione delle preferenze.
- Affronta le sfide di ottimizzazione degli iperparametri in SimPO.
- SimPO elimina il modello di riferimento esplicito per efficienza.
- β in SimPO controlla implicitamente il filtraggio dei campioni.
- L'effetto di γ dipende dalla struttura del divario di ricompensa del dataset.
- ξ-DPO utilizza il margine di ricompensa basato sul rapporto per la riformulazione.
- L'articolo è su arXiv con ID 2605.10981.
- Il metodo mira a migliorare l'interpretabilità tra i dataset.
Entità
Istituzioni
- arXiv