ARTFEED — Contemporary Art Intelligence

La Media dei Logit Migliora il Post-Training degli LLM Senza Regolarizzazione KL

ai-technology · 2026-05-22

I ricercatori hanno svelato un nuovo approccio per il fine-tuning di modelli linguistici di grandi dimensioni. Questa tecnica combina i logit di una politica di riferimento stabile, come il Supervised Fine-Tuning (SFT), con una politica più adattabile, utilizzando Group Relative Policy Optimization (GRPO). A differenza del Reinforcement Learning with Verifiable Rewards (RLVR), elimina la necessità di regolarizzazione di Kullback-Leibler (KL) e di reti critiche. Facendo la media dei logit, questo framework collega la politica adattabile con quella di riferimento, sfruttando le capacità di ragionamento della politica addestrabile pur mantenendo i vantaggi dell'SFT. Valutato su benchmark come MATH, cn-k12 e MMLU, questo nuovo metodo mostra un'accuratezza pari o superiore rispetto al tradizionale GRPO con regolarizzazione KL.

Fatti principali

  • Il metodo fa la media dei logit della politica di riferimento congelata e della politica addestrabile.
  • Integrato in Group Relative Policy Optimization (GRPO).
  • Nessuna regolarizzazione KL o rete critica utilizzata.
  • Valutato sui benchmark MATH, cn-k12 e MMLU.
  • Raggiunge un'accuratezza superiore o comparabile al GRPO con regolarizzazione KL.
  • La politica di riferimento è tipicamente un modello SFT.
  • Il metodo sfrutta l'esperienza di ragionamento mantenendo la formattazione SFT.
  • Contrasta con Reinforcement Learning with Verifiable Rewards (RLVR).

Entità

Istituzioni

  • arXiv

Fonti