L'autodistillazione pesata per posizione migliora l'affidabilità del modello di ragionamento
Un nuovo articolo su arXiv (2605.21606) introduce un metodo per migliorare l'autodistillazione on-policy (OPSD) per compiti di ragionamento. L'OPSD standard pesa tutti i token allo stesso modo, ma l'entropia dell'insegnante può essere ambigua, riflettendo incertezza o diversità di soluzione. Gli autori propongono una diagnostica di vitalità dei rami che testa le alternative di token successivi da un prompt privilegiato dell'insegnante. Utilizzando Qwen3-4B, scoprono che un punteggio di posizione orientato all'interno della sequenza indica in modo affidabile l'affidabilità del token. Questo approccio pesato per posizione migliora le prestazioni del modello studente selezionando selettivamente i target dell'insegnante.
Fatti principali
- ID articolo: arXiv:2605.21606
- Si concentra sull'autodistillazione on-policy (OPSD) per il ragionamento
- L'OPSD standard tratta tutti i token generati allo stesso modo
- L'entropia dell'insegnante può indicare incertezza o diversità di soluzione
- Introduce una diagnostica di vitalità dei rami per identificare token affidabili
- Utilizza il modello Qwen3-4B per gli esperimenti
- Il punteggio di posizione orientato all'interno della sequenza è il risultato chiave
- Il metodo migliora l'affidabilità del ragionamento del modello studente
Entità
Istituzioni
- arXiv