L'Autodistillazione Adattiva alla Direzione Migliora il Ragionamento dei LLM
L'autodistillazione on-policy (OPSD) è un nuovo approccio di post-addestramento per i modelli linguistici di grandi dimensioni (LLM) in cui il modello agisce come proprio istruttore, utilizzando dati privilegiati come tracce di riferimento o suggerimenti per fornire una supervisione densa a livello di token durante i suoi rollout. Tuttavia, ricerche recenti indicano che l'OPSD può ostacolare il ragionamento complesso limitando l'incertezza predittiva, essenziale per l'esplorazione e la revisione delle ipotesi. L'analisi delle prestazioni a livello di token mostra che questo problema deriva da una supervisione uniforme su token con diversi livelli di incertezza: la conformità limita l'esplorazione in scenari ad alta entropia, mentre la deviazione influisce negativamente sull'accuratezza in contesti a bassa entropia. Per affrontare questo problema, i ricercatori introducono l'Autodistillazione Adattiva alla Direzione (DASD), che sposta l'attenzione dall'imitazione uniforme alla supervisione direzionale guidata dall'entropia. Questo studio è disponibile su arXiv con l'identificatore 2605.22263.
Fatti principali
- L'autodistillazione on-policy (OPSD) è un paradigma emergente di post-addestramento per LLM.
- L'OPSD utilizza il modello come proprio insegnante con informazioni privilegiate.
- L'OPSD degrada il ragionamento complesso sopprimendo l'incertezza predittiva.
- L'analisi a livello di token mostra che la supervisione uniforme dell'insegnante causa il fallimento.
- L'Autodistillazione Adattiva alla Direzione (DASD) è proposta come soluzione.
- La DASD riformula la supervisione in supervisione direzionale guidata dall'entropia.
- L'articolo è disponibile su arXiv con ID 2605.22263.
- La ricerca affronta la direzione uniforme della supervisione dell'insegnante.
Entità
Istituzioni
- arXiv