SFT e RL non possono essere disaccoppiati nel post-addestramento dei LLM

other · 2026-05-07

Un recente studio teorico dimostra che il supervised fine-tuning (SFT) e l'apprendimento per rinforzo (RL) sono interdipendenti durante la fase di post-addestramento dei grandi modelli linguistici. La ricerca rivela che la pratica di alternare SFT e RL, tipica dei modelli di ragionamento contemporanei, porta a un reciproco deterioramento: RL amplifica la perdita di SFT sia nelle valutazioni distribuzionali (basate su KL) che in quelle di paesaggio (basate su PL), mentre SFT riduce le ricompense ottenute tramite RL in contesti simili. Gli autori stabiliscono la durata ottimale di RL nella condizione PL per massimizzare il miglioramento della ricompensa minimizzando il degrado di SFT e individuano la soglia per il non-disaccoppiamento. Questo articolo è accessibile su arXiv.

Fatti principali

Il supervised fine-tuning (SFT) e l'apprendimento per rinforzo (RL) non possono essere disaccoppiati nel post-addestramento dei LLM.
RL aumenta la perdita di SFT sia nelle analisi basate su KL che su PL.
SFT riduce la ricompensa ottenuta da RL in condizioni analoghe.
La durata ottimale di RL bilancia il miglioramento della ricompensa con il degrado di SFT nella condizione PL.
Viene identificata la soglia di non-disaccoppiamento.
I moderni modelli di ragionamento alternano ampiamente l'addestramento SFT e RL.
L'articolo è pubblicato su arXiv con ID 2601.07389.
Lo studio fornisce una prova teorica del non-disaccoppiamento.

SFT e RL non possono essere disaccoppiati nel post-addestramento dei LLM

Fatti principali

Entità

Istituzioni

Fonti