GraphDPO: Ottimizzazione dei Modelli Linguistici su Grafi di Preferenza
Un nuovo metodo chiamato Graph Direct Preference Optimization (GraphDPO) è stato introdotto dai ricercatori, estendendo il concetto di Direct Preference Optimization (DPO). A differenza di DPO, che si basa su confronti di preferenza a coppie per allineare i modelli linguistici, GraphDPO utilizza grafi di preferenza aciclici diretti formati da classifiche di rollout. Questo nuovo approccio cattura strutture di preferenza complesse da più rollout, evitando problemi di transitività e supervisione conflittuale. Rappresentando le relazioni di dominanza come archi, GraphDPO ottimizza un obiettivo ispirato a Plackett-Luce attraverso i vicinati del grafo, garantendo transitività e comprendendo il DPO standard come caso specifico. Questa tecnica mitiga anche l'instabilità di ottimizzazione che si verifica quando si trasformano dati multi-rollout in coppie separate. I risultati sono disponibili su arXiv con l'identificatore 2605.08037.
Fatti principali
- 1. GraphDPO generalizza DPO per operare su grafi di preferenza aciclici diretti.
- 2. DPO allinea i modelli linguistici utilizzando confronti di preferenza a coppie.
- 3. Più rollout per prompt inducono una ricca struttura di preferenza che DPO a coppie non riesce a sfruttare.
- 4. Ridurre i dati multi-rollout in coppie indipendenti scarta la transitività e introduce supervisione ridondante.
- 5. GraphDPO codifica le relazioni di dominanza come archi in un grafo di preferenza.
- 6. L'obiettivo è una funzione ispirata a Plackett-Luce strutturata su grafo.
- 7. GraphDPO aggrega la supervisione sui vicinati del grafo.
- 8. Il DPO standard è un caso speciale di GraphDPO.
Entità
Istituzioni
- arXiv