HiPO: L'ottimizzazione gerarchica delle preferenze migliora il ragionamento dei LLM
Un nuovo articolo su arXiv introduce HiPO (Hierarchical Preference Optimization), un'estensione di Direct Preference Optimization (DPO) per allineare i grandi modelli linguistici con le preferenze umane in compiti di ragionamento complessi. DPO ottimizza le risposte complete ma manca di feedback granulare su soluzioni multi-step. Metodi esistenti come KTO, RSO, ReMA e Tree of Thoughts eccellono o nell'apprendimento stabile delle preferenze o nel ragionamento strutturato, ma non in entrambi. HiPO separa le risposte in segmenti di ragionamento—chiarimento della domanda, passaggi di ragionamento e risposta—e calcola una somma pesata delle perdite DPO per segmento, consentendo un addestramento specifico per segmento mantenendo l'efficienza computazionale di DPO.
Fatti principali
- HiPO è proposto come estensione di DPO.
- Separa le risposte in segmenti di ragionamento.
- I segmenti includono chiarimento della domanda, passaggi di ragionamento e risposta.
- La perdita è calcolata come somma pesata delle perdite DPO per segmento.
- Metodi esistenti come KTO e RSO eccellono nell'apprendimento stabile delle preferenze.
- ReMA e Tree of Thoughts eccellono nel ragionamento strutturato.
- HiPO mira a unire i punti di forza complementari.
- L'articolo è su arXiv con ID 2604.20140.
Entità
Istituzioni
- arXiv