Group Fine-Tuning (GFT): Un Framework Unificato di Post-Addestramento per LLM

other · 2026-04-30

Un recente studio pubblicato su arXiv introduce Group Fine-Tuning (GFT), un framework completo di post-addestramento progettato per grandi modelli linguistici che supera le sfide associate al supervised fine-tuning (SFT) e all'apprendimento per rinforzo (RL). I ricercatori indagano le dinamiche dell'addestramento e concludono che SFT rappresenta un caso specifico di ottimizzazione del gradiente politico caratterizzato da ricompense implicite sparse e ponderazione instabile dell'inverso della probabilità. Ciò porta a problemi come la dipendenza da un singolo percorso, il collasso dell'entropia e l'esplosione del gradiente. GFT presenta Group Advantage Learning, che crea gruppi di risposte variate e impiega una supervisione contrastiva normalizzata per mitigare la scarsità di ricompense, insieme a Dynamic Coefficient Rectification, che regola adattivamente i pesi dell'inverso della probabilità per un addestramento stabile. Lo studio è disponibile su arXiv:2604.14258.

Fatti principali

arXiv:2604.14258
Proposto Group Fine-Tuning (GFT)
SFT interpretato come caso speciale di ottimizzazione del gradiente politico
Problemi di SFT: dipendenza da un singolo percorso, collasso dell'entropia, esplosione del gradiente
GFT include Group Advantage Learning e Dynamic Coefficient Rectification
Group Advantage Learning utilizza gruppi di risposte diversificate e supervisione contrastiva normalizzata
Dynamic Coefficient Rectification limita adattivamente i pesi dell'inverso della probabilità
Tipo di articolo: replace

Group Fine-Tuning (GFT): Un Framework Unificato di Post-Addestramento per LLM

Fatti principali

Entità

Istituzioni

Fonti