SC-SDPO: L'autodistillazione coerente con la scala migliora il ragionamento dei LLM
Un nuovo metodo chiamato SC-SDPO (Scale-Consistent Self-Distillation Policy Optimization) migliora il ragionamento nei modelli linguistici di grandi dimensioni affrontando una limitazione di SDPO. SDPO utilizza le previsioni del modello stesso come insegnante per un'assegnazione densa del credito a livello di token, ma manca di consapevolezza della difficoltà rispetto a GRPO, che si concentra naturalmente su domande di difficoltà intermedia. Analizzando la normalizzazione dei vantaggi di GRPO, i ricercatori hanno scoperto che la normalizzazione equalizza l'apprendibilità tra le domande, lasciando un fattore di scala residuo. Propongono di pesare la perdita SDPO di ogni domanda per [p̂(1-p̂)]^{1/2}, dove p̂ è il tasso di superamento stimato, creando SC-SDPO. Questa variante coerente con la scala migliora le prestazioni nei compiti di ragionamento. Il lavoro è pubblicato su arXiv con identificatore 2605.27765.
Fatti principali
- 1. SC-SDPO è una variante dell'ottimizzazione delle politiche di autodistillazione (SDPO).
- 2. SDPO utilizza le previsioni condizionate dal feedback del modello stesso come auto-insegnante.
- 3. Il vantaggio relativo al gruppo di GRPO si concentra naturalmente su domande di difficoltà intermedia.
- 4. Il vantaggio basato su KL di SDPO manca di consapevolezza implicita della difficoltà.
- 5. La normalizzazione assorbe il termine di varianza p(1-p), equalizzando l'apprendibilità tra le domande.
- 6. Il fattore di scala residuo è sqrt(p(1-p)) nel gradiente per domanda.
- 7. SC-SDPO pesa la perdita SDPO di ogni domanda per [p̂(1-p̂)]^{1/2}.
- 8. L'articolo è disponibile su arXiv con ID 2605.27765.
Entità
Istituzioni
- arXiv