TRACE: Allineamento tramite Token Critici per il Ragionamento Matematico nell'IA
Un nuovo metodo di addestramento per l'IA chiamato TRACE (Token-Routed Alignment for Critical rEasoning) è stato sviluppato per migliorare le capacità di ragionamento dei grandi modelli linguistici, in particolare in matematica. Questo metodo affronta i problemi riscontrati nell'autodistillazione on-policy (self-OPD), dove i gradienti vengono sprecati su token irrilevanti, causando perdite di informazioni e un ragionamento peggiore. TRACE si concentra sugli span critici identificati dagli annotatori, utilizzando la KL forward su span importanti di output accurati, la KL reverse opzionale su span di errore e GRPO sugli altri, eliminando gradualmente il canale KL dopo un breve warm-up. I risultati mostrano che la KL forward migliora significativamente le prestazioni dei token supportati dall'insegnante che gli studenti spesso trascurano, mentre il masking e il decadimento degli span aiutano a controllare il gradiente privilegiato.
Fatti principali
- 1. TRACE è un nuovo metodo di addestramento per l'IA per il ragionamento matematico.
- 2. Affronta i problemi nell'autodistillazione on-policy (self-OPD).
- 3. La divergenza KL su tutti i token spreca gradienti su posizioni ridondanti.
- 4. La perdita di informazioni privilegiate causa un aumento dell'entropia e un ragionamento abbreviato.
- 5. TRACE distilla solo sugli span critici marcati dagli annotatori.
- 6. La KL forward viene applicata su span chiave di rollout corretti.
- 7. La KL reverse opzionale viene applicata su span di errore localizzati.
- 8. GRPO viene utilizzato su tutti i token rimanenti.
- 9. Il canale KL viene eliminato gradualmente dopo un breve warm-up.
- 10. La KL forward fornisce un miglioramento non trascurabile ai token supportati dall'insegnante.
- 11. Il masking e il decadimento degli span mantengono sotto controllo il gradiente privilegiato cumulativo.
Entità
—