EGRSD: Autodistillazione guidata dall'entropia per un ragionamento efficiente degli LLM
Una tecnica innovativa denominata EGRSD (Entropy-Guided Reinforced Self-Distillation) migliora l'autodistillazione on-policy per l'addestramento di modelli di ragionamento. I metodi attuali applicano pesi uniformi ai segnali a livello di token del teacher lungo le sequenze chain-of-thought, trascurando le differenze nell'entropia predittiva del teacher. EGRSD integra aggiornamenti a livello di token attraverso tre segnali distinti: una direzione basata sulla ricompensa, una magnitudine del rapporto di verosimiglianza teacher-studente e un gate di confidenza basato sull'entropia del teacher che riduce il peso dei token ad alta entropia garantendo un limite inferiore non nullo. Inoltre, una versione causale lookahead, CL-EGRSD, differenzia tra span ad alta entropia sostenuti e transitori. I risultati degli esperimenti sono dettagliati nell'articolo.
Fatti principali
- EGRSD sta per Entropy-Guided Reinforced Self-Distillation.
- Affronta la pesatura uniforme dei segnali a livello di token del teacher nell'autodistillazione on-policy.
- Il metodo utilizza tre segnali: direzione basata sulla ricompensa, magnitudine del rapporto di verosimiglianza e gate di confidenza dell'entropia.
- Il gate di entropia riduce il peso delle posizioni dei token ad alta entropia con un limite inferiore non nullo.
- CL-EGRSD è una variante causale lookahead che distingue gli span ad alta entropia sostenuti da quelli transitori.
- L'articolo è disponibile su arXiv con ID 2605.13255.
- L'approccio mira a un ragionamento efficiente degli LLM.
- Sono stati condotti esperimenti per validare il metodo.
Entità
Istituzioni
- arXiv