Distillazione on-policy multi-insegnante per il recupero delle capacità dei LLM
Un nuovo articolo su arXiv (2605.27115) affronta la sfida di recuperare le capacità generali dei LLM dopo la specializzazione in un dominio. La specializzazione di dominio migliora il comportamento in settori verticali ma spesso indebolisce le capacità generali. Gli autori propongono un metodo di distillazione on-policy multi-insegnante consapevole della controazione, che funziona con prompt generali proxy facilmente disponibili, evitando la necessità di ricostruire distribuzioni di addestramento nascoste. Identificano due modalità di fallimento nella MOPD vanilla: la controazione recupero-conservazione dovuta a gradienti contrastanti e l'appiattimento del segnale debole dovuto alla media uniforme. Il metodo mira a bilanciare recupero e conservazione.
Fatti principali
- Articolo arXiv 2605.27115
- Affronta il recupero delle capacità generali dopo la specializzazione di dominio
- Propone distillazione on-policy multi-insegnante consapevole della controazione
- Utilizza prompt generali proxy invece di ricostruire distribuzioni nascoste
- Identifica la controazione recupero-conservazione e l'appiattimento del segnale debole come modalità di fallimento
- Si concentra sul bilanciamento tra recupero e conservazione
Entità
Istituzioni
- arXiv