ARTFEED — Contemporary Art Intelligence

HiPO: L'ottimizzazione gerarchica delle preferenze migliora il ragionamento dei LLM

ai-technology · 2026-04-24

Un nuovo articolo su arXiv introduce HiPO (Hierarchical Preference Optimization), un'estensione di Direct Preference Optimization (DPO) per allineare i grandi modelli linguistici con le preferenze umane in compiti di ragionamento complessi. DPO ottimizza le risposte complete ma manca di feedback granulare su soluzioni multi-step. Metodi esistenti come KTO, RSO, ReMA e Tree of Thoughts eccellono o nell'apprendimento stabile delle preferenze o nel ragionamento strutturato, ma non in entrambi. HiPO separa le risposte in segmenti di ragionamento—chiarimento della domanda, passaggi di ragionamento e risposta—e calcola una somma pesata delle perdite DPO per segmento, consentendo un addestramento specifico per segmento mantenendo l'efficienza computazionale di DPO.

Fatti principali

  • HiPO è proposto come estensione di DPO.
  • Separa le risposte in segmenti di ragionamento.
  • I segmenti includono chiarimento della domanda, passaggi di ragionamento e risposta.
  • La perdita è calcolata come somma pesata delle perdite DPO per segmento.
  • Metodi esistenti come KTO e RSO eccellono nell'apprendimento stabile delle preferenze.
  • ReMA e Tree of Thoughts eccellono nel ragionamento strutturato.
  • HiPO mira a unire i punti di forza complementari.
  • L'articolo è su arXiv con ID 2604.20140.

Entità

Istituzioni

  • arXiv

Fonti