Distillazione del Ragionamento con Validità Calibrata per LLM
Un nuovo framework per la distillazione del ragionamento, chiamato distillazione del ragionamento con validità calibrata, è proposto in arXiv:2605.04078. A differenza dei metodi tradizionali che trattano la distillazione come imitazione di traiettorie con gerarchie statiche insegnante-studente, questo approccio la inquadra come allocazione locale del segnale di apprendimento. Confronta le azioni successive dello studente e dell'insegnante sotto lo stesso prefisso e utilizza la loro validità locale relativa per modulare l'aggiornamento della distillazione, affrontando il disallineamento in cui i passaggi intermedi sono localmente sottospecificati. Il metodo produce aggiornamenti dinamici e dipendenti dal contesto.
Fatti principali
- arXiv:2605.04078
- distillazione del ragionamento con validità calibrata
- tratta la distillazione come allocazione locale del segnale di apprendimento
- confronta le azioni successive dello studente e dell'insegnante
- utilizza la validità locale relativa per modulare la forza dell'aggiornamento
- affronta il disallineamento nell'imitazione di traiettorie
- aggiornamenti dinamici e dipendenti dal contesto
- cross abstract
Entità
Istituzioni
- arXiv