CU-DPO migliora il ragionamento dei LLM con segnali di utilità continua

ai-technology · 2026-04-25

Un nuovo approccio noto come Continuous Utility Direct Preference Optimization (CU-DPO) introduce punteggi continui al posto delle etichette di preferenza binarie, consentendo una valutazione più sfumata della qualità del ragionamento nei grandi modelli linguistici. Questo metodo allinea i modelli a una varietà di strategie cognitive basate su prompt. I risultati teorici dimostrano che l'impiego di K strategie produce un miglioramento Theta(K log K) nella complessità del campione rispetto alle preferenze binarie, e che DPO si avvicina alla politica di massimizzazione dell'utilità regolarizzata dall'entropia. Il processo di addestramento prevede due fasi: prima, la selezione della strategia, che ottimizza il modello per identificare la strategia più efficace attraverso confronti best-vs-all, seguita dal perfezionamento dell'esecuzione, concentrandosi sull'applicazione corretta della strategia scelta utilizzando segnali marginali. Il documento è disponibile su arXiv con il riferimento 2602.00931.

Fatti principali

1. CU-DPO sostituisce le etichette binarie con punteggi continui per la qualità del ragionamento.
2. Il framework allinea i modelli a un portafoglio di strategie cognitive basate su prompt.
3. L'apprendimento con K strategie produce un miglioramento Theta(K log K) nella complessità del campione.
4. DPO converge alla politica di massimizzazione dell'utilità regolarizzata dall'entropia.
5. Pipeline a due fasi: selezione della strategia e perfezionamento dell'esecuzione.
6. La selezione della strategia utilizza confronti best-vs-all.
7. Il perfezionamento dell'esecuzione utilizza segnali marginali.
8. Documento disponibile su arXiv: 2602.00931.

CU-DPO migliora il ragionamento dei LLM con segnali di utilità continua

Fatti principali

Entità

Istituzioni

Fonti