Distribuzione degli Stati, non Funzione di Perdita, Guida il Post-Addestramento dei LLM

ai-technology · 2026-05-23

Uno studio recente pubblicato su arXiv (2605.22731) sostiene che la distribuzione degli stati applicata durante la supervisione è più cruciale per il post-addestramento nei grandi modelli linguistici rispetto alla funzione di perdita stessa. I ricercatori definiscono il post-addestramento come il processo di modellamento della distribuzione degli stati e conducono test controllati utilizzando Qwen3-0.6B-Base su GSM8K, valutando la ritenzione con TruthfulQA e MMLU. I loro risultati indicano che un'esecuzione SFT delicata migliora le prestazioni su GSM8K con un minimo oblio, mentre un'esecuzione SFT rigorosa porta a una significativa perdita di ritenzione. Inoltre, la distillazione on-policy da un insegnante SFT compromesso supera i risultati dell'insegnante stesso. La ricerca enfatizza tre osservazioni chiave: gli effetti della SFT lieve rispetto a quella stressante, i vantaggi della distillazione on-policy e l'importanza della distribuzione degli stati nell'influenzare il comportamento del modello.

Fatti principali

Il paper arXiv:2605.22731 analizza i metodi di post-addestramento dei LLM
Si concentra sulla distribuzione degli stati piuttosto che sulle funzioni di perdita
Utilizza il modello Qwen3-0.6B-Base
Valutato su GSM8K, TruthfulQA e MMLU
La SFT lieve migliora GSM8K con poco oblio
La SFT stressante causa una sostanziale perdita di ritenzione
La distillazione on-policy da un insegnante SFT degradato supera l'insegnante
Formalizza il post-addestramento come modellamento della distribuzione degli stati

Distribuzione degli Stati, non Funzione di Perdita, Guida il Post-Addestramento dei LLM

Fatti principali

Entità

Istituzioni

Fonti