Il Fine-Tuning che Preserva le Rotazioni Migliora la Generalizzazione dei LLM
Una nuova tecnica nota come Rotation-Preserving Supervised Fine-Tuning (RPSFT) migliora l'equilibrio tra efficacia in-domain e adattabilità out-of-domain nei modelli linguistici di grandi dimensioni. Introdotta in arXiv:2605.10973, RPSFT impone penalità sulle alterazioni all'interno del blocco proiettato dei primi k vettori singolari delle matrici dei pesi pre-addestrati. Questo approccio funge da sostituto efficace per le direzioni sensibili di Fisher, evitando gli elevati costi computazionali associati all'informazione Hessiana o di Fisher. Minimizzando le rotazioni non necessarie pur mantenendo l'adattamento al compito, RPSFT supera lo standard SFT e i benchmark competitivi su varie famiglie e dimensioni di modelli addestrati su dati di ragionamento matematico, preservando efficacemente le rappresentazioni pre-addestrate e migliorando il compromesso in-domain/out-of-domain.
Fatti principali
- RPSFT sta per Rotation-Preserving Supervised Fine-Tuning
- Metodo proposto in arXiv:2605.10973
- RPSFT penalizza i cambiamenti nel blocco proiettato dei primi k vettori singolari delle matrici dei pesi pre-addestrati
- È un proxy efficiente per le direzioni sensibili di Fisher
- Evita il costo computazionale elevato dell'informazione Hessiana o di Fisher alla scala dei LLM
- Testato su famiglie e dimensioni di modelli su dati di ragionamento matematico
- Migliora il compromesso in-domain/OOD rispetto allo standard SFT e ai baselines forti
- Preserva meglio le rappresentazioni pre-addestrate
Entità
—