La distillazione del feedback migliora la dimostrazione di teoremi in Lean4
Un nuovo approccio di addestramento chiamato Feedback Distillation migliora i modelli di ragionamento utilizzati nella dimostrazione di teoremi in Lean4. Questa tecnica consente al modello di allineare la propria distribuzione basandosi sul feedback privilegiato di un modello linguistico, fornendo sia supervisione a livello di token che l'integrazione di conoscenze esterne. Rispetto a GRPO, Feedback Distillation mostra una diversità di traiettorie superiore, una maggiore entropia della politica e un miglior scaling pass@k. Le due tecniche funzionano bene insieme; inizializzare GRPO da un checkpoint di Feedback Distillation produce risultati migliori rispetto all'uso di ciascun metodo singolarmente.
Fatti principali
- Feedback Distillation è proposto per il post-addestramento di modelli di ragionamento.
- Utilizza la supervisione a livello di token dal feedback privilegiato di un modello linguistico.
- Il metodo è valutato sulla dimostrazione di teoremi in Lean4.
- Mantiene una maggiore diversità nelle traiettorie generate rispetto a GRPO.
- Feedback Distillation produce una maggiore entropia della politica e un miglior scaling pass@k.
- Inizializzare GRPO da un checkpoint di Feedback Distillation supera entrambi i metodi singolarmente.
- L'approccio si basa su lavori recenti sull'auto-distillazione.
- L'articolo è disponibile su arXiv con identificatore 2605.30861.
Entità
Istituzioni
- arXiv