DACA-GRPO migliora l'apprendimento per rinforzo per i modelli linguistici diffusivi
Un nuovo articolo su arXiv (2605.16342) propone DACA-GRPO (Denoising-Aware Credit Assignment for GRPO), un metodo per migliorare l'apprendimento per rinforzo nei modelli linguistici diffusivi. Gli autori identificano due debolezze negli approcci RL esistenti: mancanza di assegnazione temporale del credito tra i passaggi di denoising e stime di verosimiglianza media di campo distorte. DACA-GRPO introduce i Denoising Progress Scores per pesi di importanza per token e la Stratified Masking Likelihood per ridurre la distorsione. È progettato come un miglioramento plug-and-play per i trainer di tipo GRPO.
Fatti principali
- L'articolo arXiv 2605.16342 introduce DACA-GRPO
- DACA-GRPO affronta l'assegnazione temporale del credito nei modelli linguistici diffusivi
- I Denoising Progress Scores estraggono pesi di importanza per token
- La Stratified Masking Likelihood partiziona le posizioni dei token in strati
- Il metodo è un miglioramento plug-and-play per i trainer di tipo GRPO
- I metodi RL esistenti trattano tutti i passaggi di denoising come ugualmente importanti
- Le stime di verosimiglianza media di campo sono sistematicamente distorte
- DACA-GRPO non richiede costi forward aggiuntivi
Entità
Istituzioni
- arXiv