La Media dei Logit Migliora il Post-Training degli LLM Senza Regolarizzazione KL
I ricercatori hanno svelato un nuovo approccio per il fine-tuning di modelli linguistici di grandi dimensioni. Questa tecnica combina i logit di una politica di riferimento stabile, come il Supervised Fine-Tuning (SFT), con una politica più adattabile, utilizzando Group Relative Policy Optimization (GRPO). A differenza del Reinforcement Learning with Verifiable Rewards (RLVR), elimina la necessità di regolarizzazione di Kullback-Leibler (KL) e di reti critiche. Facendo la media dei logit, questo framework collega la politica adattabile con quella di riferimento, sfruttando le capacità di ragionamento della politica addestrabile pur mantenendo i vantaggi dell'SFT. Valutato su benchmark come MATH, cn-k12 e MMLU, questo nuovo metodo mostra un'accuratezza pari o superiore rispetto al tradizionale GRPO con regolarizzazione KL.
Fatti principali
- Il metodo fa la media dei logit della politica di riferimento congelata e della politica addestrabile.
- Integrato in Group Relative Policy Optimization (GRPO).
- Nessuna regolarizzazione KL o rete critica utilizzata.
- Valutato sui benchmark MATH, cn-k12 e MMLU.
- Raggiunge un'accuratezza superiore o comparabile al GRPO con regolarizzazione KL.
- La politica di riferimento è tipicamente un modello SFT.
- Il metodo sfrutta l'esperienza di ragionamento mantenendo la formattazione SFT.
- Contrasta con Reinforcement Learning with Verifiable Rewards (RLVR).
Entità
Istituzioni
- arXiv