ARTFEED — Contemporary Art Intelligence

TRACE: Allineamento tramite Token Critici per il Ragionamento Matematico nell'IA

ai-technology · 2026-05-12

Un nuovo metodo di addestramento per l'IA chiamato TRACE (Token-Routed Alignment for Critical rEasoning) è stato sviluppato per migliorare le capacità di ragionamento dei grandi modelli linguistici, in particolare in matematica. Questo metodo affronta i problemi riscontrati nell'autodistillazione on-policy (self-OPD), dove i gradienti vengono sprecati su token irrilevanti, causando perdite di informazioni e un ragionamento peggiore. TRACE si concentra sugli span critici identificati dagli annotatori, utilizzando la KL forward su span importanti di output accurati, la KL reverse opzionale su span di errore e GRPO sugli altri, eliminando gradualmente il canale KL dopo un breve warm-up. I risultati mostrano che la KL forward migliora significativamente le prestazioni dei token supportati dall'insegnante che gli studenti spesso trascurano, mentre il masking e il decadimento degli span aiutano a controllare il gradiente privilegiato.

Fatti principali

  • 1. TRACE è un nuovo metodo di addestramento per l'IA per il ragionamento matematico.
  • 2. Affronta i problemi nell'autodistillazione on-policy (self-OPD).
  • 3. La divergenza KL su tutti i token spreca gradienti su posizioni ridondanti.
  • 4. La perdita di informazioni privilegiate causa un aumento dell'entropia e un ragionamento abbreviato.
  • 5. TRACE distilla solo sugli span critici marcati dagli annotatori.
  • 6. La KL forward viene applicata su span chiave di rollout corretti.
  • 7. La KL reverse opzionale viene applicata su span di errore localizzati.
  • 8. GRPO viene utilizzato su tutti i token rimanenti.
  • 9. Il canale KL viene eliminato gradualmente dopo un breve warm-up.
  • 10. La KL forward fornisce un miglioramento non trascurabile ai token supportati dall'insegnante.
  • 11. Il masking e il decadimento degli span mantengono sotto controllo il gradiente privilegiato cumulativo.

Entità

Fonti