La Media dei Logit Migliora il Post-Training degli LLM Senza Regolarizzazione KL

ai-technology · 2026-05-22

I ricercatori hanno svelato un nuovo approccio per il fine-tuning di modelli linguistici di grandi dimensioni. Questa tecnica combina i logit di una politica di riferimento stabile, come il Supervised Fine-Tuning (SFT), con una politica più adattabile, utilizzando Group Relative Policy Optimization (GRPO). A differenza del Reinforcement Learning with Verifiable Rewards (RLVR), elimina la necessità di regolarizzazione di Kullback-Leibler (KL) e di reti critiche. Facendo la media dei logit, questo framework collega la politica adattabile con quella di riferimento, sfruttando le capacità di ragionamento della politica addestrabile pur mantenendo i vantaggi dell'SFT. Valutato su benchmark come MATH, cn-k12 e MMLU, questo nuovo metodo mostra un'accuratezza pari o superiore rispetto al tradizionale GRPO con regolarizzazione KL.

Fatti principali

Il metodo fa la media dei logit della politica di riferimento congelata e della politica addestrabile.
Integrato in Group Relative Policy Optimization (GRPO).
Nessuna regolarizzazione KL o rete critica utilizzata.
Valutato sui benchmark MATH, cn-k12 e MMLU.
Raggiunge un'accuratezza superiore o comparabile al GRPO con regolarizzazione KL.
La politica di riferimento è tipicamente un modello SFT.
Il metodo sfrutta l'esperienza di ragionamento mantenendo la formattazione SFT.
Contrasta con Reinforcement Learning with Verifiable Rewards (RLVR).

La Media dei Logit Migliora il Post-Training degli LLM Senza Regolarizzazione KL

Fatti principali

Entità

Istituzioni

Fonti