Group Fine-Tuning (GFT): Un Framework Unificato di Post-Addestramento per LLM
Un recente studio pubblicato su arXiv introduce Group Fine-Tuning (GFT), un framework completo di post-addestramento progettato per grandi modelli linguistici che supera le sfide associate al supervised fine-tuning (SFT) e all'apprendimento per rinforzo (RL). I ricercatori indagano le dinamiche dell'addestramento e concludono che SFT rappresenta un caso specifico di ottimizzazione del gradiente politico caratterizzato da ricompense implicite sparse e ponderazione instabile dell'inverso della probabilità. Ciò porta a problemi come la dipendenza da un singolo percorso, il collasso dell'entropia e l'esplosione del gradiente. GFT presenta Group Advantage Learning, che crea gruppi di risposte variate e impiega una supervisione contrastiva normalizzata per mitigare la scarsità di ricompense, insieme a Dynamic Coefficient Rectification, che regola adattivamente i pesi dell'inverso della probabilità per un addestramento stabile. Lo studio è disponibile su arXiv:2604.14258.
Fatti principali
- arXiv:2604.14258
- Proposto Group Fine-Tuning (GFT)
- SFT interpretato come caso speciale di ottimizzazione del gradiente politico
- Problemi di SFT: dipendenza da un singolo percorso, collasso dell'entropia, esplosione del gradiente
- GFT include Group Advantage Learning e Dynamic Coefficient Rectification
- Group Advantage Learning utilizza gruppi di risposte diversificate e supervisione contrastiva normalizzata
- Dynamic Coefficient Rectification limita adattivamente i pesi dell'inverso della probabilità
- Tipo di articolo: replace
Entità
Istituzioni
- arXiv