ARTFEED — Contemporary Art Intelligence

L'autodistillazione pesata per posizione migliora l'affidabilità del modello di ragionamento

other · 2026-05-23

Un nuovo articolo su arXiv (2605.21606) introduce un metodo per migliorare l'autodistillazione on-policy (OPSD) per compiti di ragionamento. L'OPSD standard pesa tutti i token allo stesso modo, ma l'entropia dell'insegnante può essere ambigua, riflettendo incertezza o diversità di soluzione. Gli autori propongono una diagnostica di vitalità dei rami che testa le alternative di token successivi da un prompt privilegiato dell'insegnante. Utilizzando Qwen3-4B, scoprono che un punteggio di posizione orientato all'interno della sequenza indica in modo affidabile l'affidabilità del token. Questo approccio pesato per posizione migliora le prestazioni del modello studente selezionando selettivamente i target dell'insegnante.

Fatti principali

  • ID articolo: arXiv:2605.21606
  • Si concentra sull'autodistillazione on-policy (OPSD) per il ragionamento
  • L'OPSD standard tratta tutti i token generati allo stesso modo
  • L'entropia dell'insegnante può indicare incertezza o diversità di soluzione
  • Introduce una diagnostica di vitalità dei rami per identificare token affidabili
  • Utilizza il modello Qwen3-4B per gli esperimenti
  • Il punteggio di posizione orientato all'interno della sequenza è il risultato chiave
  • Il metodo migliora l'affidabilità del ragionamento del modello studente

Entità

Istituzioni

  • arXiv

Fonti