ARTFEED — Contemporary Art Intelligence

Mitigazione dei Bias di Esposizione Duale nella Distillazione del Ragionamento dei LLM

ai-technology · 2026-05-20

Un nuovo articolo su arXiv (2605.19433) identifica un dilemma fondamentale nella distillazione del ragionamento dei LLM: la distillazione off-policy causa un bias di esposizione dovuto alla discrepanza tra addestramento e inferenza, mentre la distillazione on-policy introduce un bias di esposizione inverso reciproco in cui i modelli insegnanti faticano con i contesti generati dagli studenti. Gli autori propongono un metodo per mitigare entrambi i bias.

Fatti principali

  • Articolo arXiv 2605.19433
  • Affronta i bias di esposizione nella distillazione del ragionamento dei LLM
  • La distillazione off-policy utilizza traiettorie generate dall'insegnante
  • La distillazione on-policy utilizza traiettorie generate dallo studente
  • Entrambi gli approcci soffrono di bias distinti
  • Propone una mitigazione per i bias di esposizione duale

Entità

Fonti