CU-DPO migliora il ragionamento dei LLM con segnali di utilità continua
Un nuovo approccio noto come Continuous Utility Direct Preference Optimization (CU-DPO) introduce punteggi continui al posto delle etichette di preferenza binarie, consentendo una valutazione più sfumata della qualità del ragionamento nei grandi modelli linguistici. Questo metodo allinea i modelli a una varietà di strategie cognitive basate su prompt. I risultati teorici dimostrano che l'impiego di K strategie produce un miglioramento Theta(K log K) nella complessità del campione rispetto alle preferenze binarie, e che DPO si avvicina alla politica di massimizzazione dell'utilità regolarizzata dall'entropia. Il processo di addestramento prevede due fasi: prima, la selezione della strategia, che ottimizza il modello per identificare la strategia più efficace attraverso confronti best-vs-all, seguita dal perfezionamento dell'esecuzione, concentrandosi sull'applicazione corretta della strategia scelta utilizzando segnali marginali. Il documento è disponibile su arXiv con il riferimento 2602.00931.
Fatti principali
- 1. CU-DPO sostituisce le etichette binarie con punteggi continui per la qualità del ragionamento.
- 2. Il framework allinea i modelli a un portafoglio di strategie cognitive basate su prompt.
- 3. L'apprendimento con K strategie produce un miglioramento Theta(K log K) nella complessità del campione.
- 4. DPO converge alla politica di massimizzazione dell'utilità regolarizzata dall'entropia.
- 5. Pipeline a due fasi: selezione della strategia e perfezionamento dell'esecuzione.
- 6. La selezione della strategia utilizza confronti best-vs-all.
- 7. Il perfezionamento dell'esecuzione utilizza segnali marginali.
- 8. Documento disponibile su arXiv: 2602.00931.
Entità
Istituzioni
- arXiv