ARTFEED — Contemporary Art Intelligence

Group Fine-Tuning (GFT): Un Framework Unificato di Post-Addestramento per LLM

other · 2026-04-30

Un recente studio pubblicato su arXiv introduce Group Fine-Tuning (GFT), un framework completo di post-addestramento progettato per grandi modelli linguistici che supera le sfide associate al supervised fine-tuning (SFT) e all'apprendimento per rinforzo (RL). I ricercatori indagano le dinamiche dell'addestramento e concludono che SFT rappresenta un caso specifico di ottimizzazione del gradiente politico caratterizzato da ricompense implicite sparse e ponderazione instabile dell'inverso della probabilità. Ciò porta a problemi come la dipendenza da un singolo percorso, il collasso dell'entropia e l'esplosione del gradiente. GFT presenta Group Advantage Learning, che crea gruppi di risposte variate e impiega una supervisione contrastiva normalizzata per mitigare la scarsità di ricompense, insieme a Dynamic Coefficient Rectification, che regola adattivamente i pesi dell'inverso della probabilità per un addestramento stabile. Lo studio è disponibile su arXiv:2604.14258.

Fatti principali

  • arXiv:2604.14258
  • Proposto Group Fine-Tuning (GFT)
  • SFT interpretato come caso speciale di ottimizzazione del gradiente politico
  • Problemi di SFT: dipendenza da un singolo percorso, collasso dell'entropia, esplosione del gradiente
  • GFT include Group Advantage Learning e Dynamic Coefficient Rectification
  • Group Advantage Learning utilizza gruppi di risposte diversificate e supervisione contrastiva normalizzata
  • Dynamic Coefficient Rectification limita adattivamente i pesi dell'inverso della probabilità
  • Tipo di articolo: replace

Entità

Istituzioni

  • arXiv

Fonti