ξ-DPO: Un Nuovo Metodo di Ottimizzazione delle Preferenze per LLM

ai-technology · 2026-05-13

I ricercatori propongono ξ-DPO (Direct Preference Optimization via Ratio Reward Margin) come soluzione alle sfide di ottimizzazione degli iperparametri nell'ottimizzazione delle preferenze senza riferimento per modelli linguistici di grandi dimensioni. Il metodo affronta i problemi di SimPO (Simple Preference Optimization), dove la regolazione congiunta di β e γ è difficile a causa della formulazione del margine non interpretabile tra i dataset. L'analisi mostra che β controlla implicitamente il filtraggio dei campioni, mentre l'effetto di γ dipende dalla struttura del divario di ricompensa. ξ-DPO riformula l'obiettivo di preferenza utilizzando una trasformazione equivalente per migliorare l'interpretabilità e le prestazioni. L'articolo è disponibile su arXiv con ID 2605.10981.

Fatti principali

ξ-DPO è un nuovo metodo di ottimizzazione delle preferenze.
Affronta le sfide di ottimizzazione degli iperparametri in SimPO.
SimPO elimina il modello di riferimento esplicito per efficienza.
β in SimPO controlla implicitamente il filtraggio dei campioni.
L'effetto di γ dipende dalla struttura del divario di ricompensa del dataset.
ξ-DPO utilizza il margine di ricompensa basato sul rapporto per la riformulazione.
L'articolo è su arXiv con ID 2605.10981.
Il metodo mira a migliorare l'interpretabilità tra i dataset.

ξ-DPO: Un Nuovo Metodo di Ottimizzazione delle Preferenze per LLM

Fatti principali

Entità

Istituzioni

Fonti