DACA-GRPO migliora l'apprendimento per rinforzo per i modelli linguistici diffusivi

ai-technology · 2026-05-20

Un nuovo articolo su arXiv (2605.16342) propone DACA-GRPO (Denoising-Aware Credit Assignment for GRPO), un metodo per migliorare l'apprendimento per rinforzo nei modelli linguistici diffusivi. Gli autori identificano due debolezze negli approcci RL esistenti: mancanza di assegnazione temporale del credito tra i passaggi di denoising e stime di verosimiglianza media di campo distorte. DACA-GRPO introduce i Denoising Progress Scores per pesi di importanza per token e la Stratified Masking Likelihood per ridurre la distorsione. È progettato come un miglioramento plug-and-play per i trainer di tipo GRPO.

Fatti principali

L'articolo arXiv 2605.16342 introduce DACA-GRPO
DACA-GRPO affronta l'assegnazione temporale del credito nei modelli linguistici diffusivi
I Denoising Progress Scores estraggono pesi di importanza per token
La Stratified Masking Likelihood partiziona le posizioni dei token in strati
Il metodo è un miglioramento plug-and-play per i trainer di tipo GRPO
I metodi RL esistenti trattano tutti i passaggi di denoising come ugualmente importanti
Le stime di verosimiglianza media di campo sono sistematicamente distorte
DACA-GRPO non richiede costi forward aggiuntivi

DACA-GRPO migliora l'apprendimento per rinforzo per i modelli linguistici diffusivi

Fatti principali

Entità

Istituzioni

Fonti