L'autodistillazione pesata per posizione migliora l'affidabilità del modello di ragionamento

other · 2026-05-23

Un nuovo articolo su arXiv (2605.21606) introduce un metodo per migliorare l'autodistillazione on-policy (OPSD) per compiti di ragionamento. L'OPSD standard pesa tutti i token allo stesso modo, ma l'entropia dell'insegnante può essere ambigua, riflettendo incertezza o diversità di soluzione. Gli autori propongono una diagnostica di vitalità dei rami che testa le alternative di token successivi da un prompt privilegiato dell'insegnante. Utilizzando Qwen3-4B, scoprono che un punteggio di posizione orientato all'interno della sequenza indica in modo affidabile l'affidabilità del token. Questo approccio pesato per posizione migliora le prestazioni del modello studente selezionando selettivamente i target dell'insegnante.

Fatti principali

ID articolo: arXiv:2605.21606
Si concentra sull'autodistillazione on-policy (OPSD) per il ragionamento
L'OPSD standard tratta tutti i token generati allo stesso modo
L'entropia dell'insegnante può indicare incertezza o diversità di soluzione
Introduce una diagnostica di vitalità dei rami per identificare token affidabili
Utilizza il modello Qwen3-4B per gli esperimenti
Il punteggio di posizione orientato all'interno della sequenza è il risultato chiave
Il metodo migliora l'affidabilità del ragionamento del modello studente

L'autodistillazione pesata per posizione migliora l'affidabilità del modello di ragionamento

Fatti principali

Entità

Istituzioni

Fonti