L'Autodistillazione Basata sulle Preferenze Migliora l'Addestramento On-Policy

other · 2026-05-07

Un nuovo metodo chiamato Autodistillazione Basata sulle Preferenze (PBSD) viene proposto per affrontare le limitazioni dell'autodistillazione on-policy per i modelli linguistici. Gli approcci esistenti di autodistillazione riducono l'apprendimento all'allineamento KL verso un modello insegnante aumentato dal contesto, il che può causare instabilità nell'addestramento e degradare le prestazioni di ragionamento nel tempo. Inoltre, l'autodistillazione dallo stesso modello con aumento dei prompt manca di diversità esplorativa. PBSD va oltre l'allineamento KL con insegnante fisso, rivisitando l'autodistillazione on-policy attraverso una prospettiva regolarizzata dalla ricompensa. Il metodo è presentato in un articolo su arXiv (2605.05040).

Fatti principali

Viene proposto il metodo Autodistillazione Basata sulle Preferenze (PBSD).
PBSD affronta le limitazioni dei metodi esistenti di autodistillazione.
I metodi esistenti riducono l'apprendimento all'allineamento KL verso un insegnante aumentato dal contesto.
L'allineamento KL può causare instabilità nell'addestramento e degradare il ragionamento.
L'autodistillazione dallo stesso modello manca di diversità esplorativa.
PBSD utilizza una prospettiva regolarizzata dalla ricompensa.
Articolo disponibile su arXiv con ID 2605.05040.

L'Autodistillazione Basata sulle Preferenze Migliora l'Addestramento On-Policy

Fatti principali

Entità

Istituzioni

Fonti