Mitigazione dei Bias di Esposizione Duale nella Distillazione del Ragionamento dei LLM
Un nuovo articolo su arXiv (2605.19433) identifica un dilemma fondamentale nella distillazione del ragionamento dei LLM: la distillazione off-policy causa un bias di esposizione dovuto alla discrepanza tra addestramento e inferenza, mentre la distillazione on-policy introduce un bias di esposizione inverso reciproco in cui i modelli insegnanti faticano con i contesti generati dagli studenti. Gli autori propongono un metodo per mitigare entrambi i bias.
Fatti principali
- Articolo arXiv 2605.19433
- Affronta i bias di esposizione nella distillazione del ragionamento dei LLM
- La distillazione off-policy utilizza traiettorie generate dall'insegnante
- La distillazione on-policy utilizza traiettorie generate dallo studente
- Entrambi gli approcci soffrono di bias distinti
- Propone una mitigazione per i bias di esposizione duale
Entità
—