Efficacia del SFT negli LLM spiegata attraverso la prospettiva dell'interazione
Un nuovo articolo su arXiv (2605.17967) indaga perché il fine-tuning supervisionato (SFT) funzioni bene per piccole reti neurali ma possa danneggiare i grandi modelli linguistici (LLM). Utilizzando spiegazioni basate sull'interazione, i ricercatori hanno scoperto che l'SFT rimuove principalmente interazioni simili a rumore senza acquisirne di nuove affidabili, e questa fase di denoising è estremamente breve. Il proseguimento del fine-tuning introduce interazioni overfitted. Lo studio convalida questi risultati su più LLM e dataset, offrendo spunti sull'arresto anticipato e indicazioni pratiche per l'addestramento degli LLM.
Fatti principali
- L'articolo arXiv 2605.17967 esplora l'efficacia dell'SFT negli LLM
- L'SFT rimuove interazioni simili a rumore ma raramente ne acquisisce di nuove affidabili
- La fase di denoising è estremamente breve
- Il proseguimento del fine-tuning introduce interazioni overfitted
- Convalidato su più LLM e dataset
- Fornisce spunti sull'arresto anticipato
- Spiegazioni basate sull'interazione utilizzate come metrica
- L'SFT può produrre effetti inconsistenti o dannosi sugli LLM
Entità
Istituzioni
- arXiv