HiPO: L'ottimizzazione gerarchica delle preferenze migliora il ragionamento dei LLM

ai-technology · 2026-04-24

Un nuovo articolo su arXiv introduce HiPO (Hierarchical Preference Optimization), un'estensione di Direct Preference Optimization (DPO) per allineare i grandi modelli linguistici con le preferenze umane in compiti di ragionamento complessi. DPO ottimizza le risposte complete ma manca di feedback granulare su soluzioni multi-step. Metodi esistenti come KTO, RSO, ReMA e Tree of Thoughts eccellono o nell'apprendimento stabile delle preferenze o nel ragionamento strutturato, ma non in entrambi. HiPO separa le risposte in segmenti di ragionamento—chiarimento della domanda, passaggi di ragionamento e risposta—e calcola una somma pesata delle perdite DPO per segmento, consentendo un addestramento specifico per segmento mantenendo l'efficienza computazionale di DPO.

Fatti principali

HiPO è proposto come estensione di DPO.
Separa le risposte in segmenti di ragionamento.
I segmenti includono chiarimento della domanda, passaggi di ragionamento e risposta.
La perdita è calcolata come somma pesata delle perdite DPO per segmento.
Metodi esistenti come KTO e RSO eccellono nell'apprendimento stabile delle preferenze.
ReMA e Tree of Thoughts eccellono nel ragionamento strutturato.
HiPO mira a unire i punti di forza complementari.
L'articolo è su arXiv con ID 2604.20140.

HiPO: L'ottimizzazione gerarchica delle preferenze migliora il ragionamento dei LLM

Fatti principali

Entità

Istituzioni

Fonti