AMR-SD: Nuovo Metodo di Autodistillazione per l'Assegnazione del Credito a Livello di Token nei LLM

ai-technology · 2026-05-20

È stato proposto un nuovo metodo chiamato Asymmetric Meta-Reflective Self-Distillation (AMR-SD) per migliorare l'assegnazione del credito a livello di token nell'apprendimento per rinforzo per modelli linguistici di grandi dimensioni. Algoritmi standard come GRPO applicano ricompense a livello di sequenza in modo uniforme, causando un collo di bottiglia nell'assegnazione del credito. L'autodistillazione on-policy tenta di risolvere questo problema ma soffre di distribuzioni del teacher sovracondizionate e di collasso dell'addestramento a causa dell'esposizione diretta a soluzioni oracle grezze. AMR-SD inserisce un collo di bottiglia riflessivo che comprime i segnali diagnostici dai risultati del verificatore, dai rollout tra pari o dal feedback di riferimento in suggerimenti e critiche socratiche concise e autogenerate. Il metodo introduce anche il Causal Information Gain per migliorare ulteriormente l'apprendimento. L'articolo è disponibile su arXiv con identificatore 2605.18529.

Fatti principali

AMR-SD affronta il collo di bottiglia nell'assegnazione del credito nell'apprendimento per rinforzo dei LLM.
Il GRPO standard utilizza ricompense a livello di sequenza in modo uniforme.
L'autodistillazione on-policy causa distribuzioni del teacher sovracondizionate e collasso dell'addestramento.
AMR-SD inserisce un collo di bottiglia riflessivo per comprimere i segnali diagnostici.
I segnali diagnostici provengono dai risultati del verificatore, dai rollout tra pari o dal feedback di riferimento.
I segnali vengono compressi in suggerimenti e critiche socratiche autogenerate.
Il Causal Information Gain viene introdotto come parte del metodo.
L'articolo è disponibile su arXiv con identificatore 2605.18529.

AMR-SD: Nuovo Metodo di Autodistillazione per l'Assegnazione del Credito a Livello di Token nei LLM

Fatti principali

Entità

Istituzioni

Fonti