GraphDPO: Ottimizzazione dei Modelli Linguistici su Grafi di Preferenza

ai-technology · 2026-05-11

Un nuovo metodo chiamato Graph Direct Preference Optimization (GraphDPO) è stato introdotto dai ricercatori, estendendo il concetto di Direct Preference Optimization (DPO). A differenza di DPO, che si basa su confronti di preferenza a coppie per allineare i modelli linguistici, GraphDPO utilizza grafi di preferenza aciclici diretti formati da classifiche di rollout. Questo nuovo approccio cattura strutture di preferenza complesse da più rollout, evitando problemi di transitività e supervisione conflittuale. Rappresentando le relazioni di dominanza come archi, GraphDPO ottimizza un obiettivo ispirato a Plackett-Luce attraverso i vicinati del grafo, garantendo transitività e comprendendo il DPO standard come caso specifico. Questa tecnica mitiga anche l'instabilità di ottimizzazione che si verifica quando si trasformano dati multi-rollout in coppie separate. I risultati sono disponibili su arXiv con l'identificatore 2605.08037.

Fatti principali

1. GraphDPO generalizza DPO per operare su grafi di preferenza aciclici diretti.
2. DPO allinea i modelli linguistici utilizzando confronti di preferenza a coppie.
3. Più rollout per prompt inducono una ricca struttura di preferenza che DPO a coppie non riesce a sfruttare.
4. Ridurre i dati multi-rollout in coppie indipendenti scarta la transitività e introduce supervisione ridondante.
5. GraphDPO codifica le relazioni di dominanza come archi in un grafo di preferenza.
6. L'obiettivo è una funzione ispirata a Plackett-Luce strutturata su grafo.
7. GraphDPO aggrega la supervisione sui vicinati del grafo.
8. Il DPO standard è un caso speciale di GraphDPO.

GraphDPO: Ottimizzazione dei Modelli Linguistici su Grafi di Preferenza

Fatti principali

Entità

Istituzioni

Fonti