TRACE: Allineamento tramite Token Critici per il Ragionamento Matematico nell'IA

ai-technology · 2026-05-12

Un nuovo metodo di addestramento per l'IA chiamato TRACE (Token-Routed Alignment for Critical rEasoning) è stato sviluppato per migliorare le capacità di ragionamento dei grandi modelli linguistici, in particolare in matematica. Questo metodo affronta i problemi riscontrati nell'autodistillazione on-policy (self-OPD), dove i gradienti vengono sprecati su token irrilevanti, causando perdite di informazioni e un ragionamento peggiore. TRACE si concentra sugli span critici identificati dagli annotatori, utilizzando la KL forward su span importanti di output accurati, la KL reverse opzionale su span di errore e GRPO sugli altri, eliminando gradualmente il canale KL dopo un breve warm-up. I risultati mostrano che la KL forward migliora significativamente le prestazioni dei token supportati dall'insegnante che gli studenti spesso trascurano, mentre il masking e il decadimento degli span aiutano a controllare il gradiente privilegiato.

Fatti principali

1. TRACE è un nuovo metodo di addestramento per l'IA per il ragionamento matematico.
2. Affronta i problemi nell'autodistillazione on-policy (self-OPD).
3. La divergenza KL su tutti i token spreca gradienti su posizioni ridondanti.
4. La perdita di informazioni privilegiate causa un aumento dell'entropia e un ragionamento abbreviato.
5. TRACE distilla solo sugli span critici marcati dagli annotatori.
6. La KL forward viene applicata su span chiave di rollout corretti.
7. La KL reverse opzionale viene applicata su span di errore localizzati.
8. GRPO viene utilizzato su tutti i token rimanenti.
9. Il canale KL viene eliminato gradualmente dopo un breve warm-up.
10. La KL forward fornisce un miglioramento non trascurabile ai token supportati dall'insegnante.
11. Il masking e il decadimento degli span mantengono sotto controllo il gradiente privilegiato cumulativo.

Entità

—

Fonti

arXiv cs.AI — 2026-05-12