TUR-DPO: Ottimizzazione delle Preferenze Diretta Consapevole della Topologia e dell'Incertezza
Un nuovo approccio chiamato TUR-DPO è stato introdotto dai ricercatori, migliorando l'Ottimizzazione delle Preferenze Diretta (DPO) integrando topologia e incertezza per allineare meglio i modelli linguistici di grandi dimensioni (LLM) con le preferenze umane. A differenza del DPO tradizionale, che considera le preferenze semplicemente come risultati binari e fatica con input rumorosi provenienti da processi di ragionamento delicati, TUR-DPO enfatizza il ragionamento alla base delle risposte attraverso topologie di ragionamento leggere. Fonde accuratezza semantica, utilità e qualità della topologia in un segnale di incertezza raffinato. Una piccola ricompensa apprendibile viene distribuita su questi segnali e incorporata in un framework DPO pesato per l'incertezza che non richiede apprendimento per rinforzo, basandosi invece su una politica di riferimento fissa o adattiva. Valutazioni empiriche su modelli 7-8B e vari benchmark di matematica e ragionamento dimostrano miglioramenti notevoli. I risultati sono dettagliati in un articolo disponibile su arXiv, ID 2605.00224.
Fatti principali
- TUR-DPO è una variante dell'Ottimizzazione delle Preferenze Diretta (DPO).
- Affronta la sensibilità alle preferenze rumorose derivanti da fragili catene di pensiero.
- Premia come vengono derivate le risposte, non solo ciò che dicono.
- Utilizza topologie di ragionamento leggere.
- Combina fedeltà semantica, utilità e qualità della topologia in un segnale di incertezza calibrato.
- Incorporare una piccola ricompensa apprendibile fattorizzata su questi segnali.
- Rimane privo di apprendimento per rinforzo.
- Risultati empirici su modelli aperti 7-8B e benchmark di matematica/ragionamento.
Entità
Istituzioni
- arXiv