Distillazione on-policy multi-insegnante per il recupero delle capacità dei LLM

ai-technology · 2026-05-27

Un nuovo articolo su arXiv (2605.27115) affronta la sfida di recuperare le capacità generali dei LLM dopo la specializzazione in un dominio. La specializzazione di dominio migliora il comportamento in settori verticali ma spesso indebolisce le capacità generali. Gli autori propongono un metodo di distillazione on-policy multi-insegnante consapevole della controazione, che funziona con prompt generali proxy facilmente disponibili, evitando la necessità di ricostruire distribuzioni di addestramento nascoste. Identificano due modalità di fallimento nella MOPD vanilla: la controazione recupero-conservazione dovuta a gradienti contrastanti e l'appiattimento del segnale debole dovuto alla media uniforme. Il metodo mira a bilanciare recupero e conservazione.

Fatti principali

Articolo arXiv 2605.27115
Affronta il recupero delle capacità generali dopo la specializzazione di dominio
Propone distillazione on-policy multi-insegnante consapevole della controazione
Utilizza prompt generali proxy invece di ricostruire distribuzioni nascoste
Identifica la controazione recupero-conservazione e l'appiattimento del segnale debole come modalità di fallimento
Si concentra sul bilanciamento tra recupero e conservazione

Distillazione on-policy multi-insegnante per il recupero delle capacità dei LLM

Fatti principali

Entità

Istituzioni

Fonti