EGRSD: Autodistillazione guidata dall'entropia per un ragionamento efficiente degli LLM

ai-technology · 2026-05-14

Una tecnica innovativa denominata EGRSD (Entropy-Guided Reinforced Self-Distillation) migliora l'autodistillazione on-policy per l'addestramento di modelli di ragionamento. I metodi attuali applicano pesi uniformi ai segnali a livello di token del teacher lungo le sequenze chain-of-thought, trascurando le differenze nell'entropia predittiva del teacher. EGRSD integra aggiornamenti a livello di token attraverso tre segnali distinti: una direzione basata sulla ricompensa, una magnitudine del rapporto di verosimiglianza teacher-studente e un gate di confidenza basato sull'entropia del teacher che riduce il peso dei token ad alta entropia garantendo un limite inferiore non nullo. Inoltre, una versione causale lookahead, CL-EGRSD, differenzia tra span ad alta entropia sostenuti e transitori. I risultati degli esperimenti sono dettagliati nell'articolo.

Fatti principali

EGRSD sta per Entropy-Guided Reinforced Self-Distillation.
Affronta la pesatura uniforme dei segnali a livello di token del teacher nell'autodistillazione on-policy.
Il metodo utilizza tre segnali: direzione basata sulla ricompensa, magnitudine del rapporto di verosimiglianza e gate di confidenza dell'entropia.
Il gate di entropia riduce il peso delle posizioni dei token ad alta entropia con un limite inferiore non nullo.
CL-EGRSD è una variante causale lookahead che distingue gli span ad alta entropia sostenuti da quelli transitori.
L'articolo è disponibile su arXiv con ID 2605.13255.
L'approccio mira a un ragionamento efficiente degli LLM.
Sono stati condotti esperimenti per validare il metodo.

EGRSD: Autodistillazione guidata dall'entropia per un ragionamento efficiente degli LLM

Fatti principali

Entità

Istituzioni

Fonti