L'ottimizzazione del flusso di entropia on-policy previene il collasso dell'entropia in RLVR

publication · 2026-05-13

Un nuovo articolo su arXiv (2605.11491) identifica il collasso dell'entropia nell'apprendimento per rinforzo con ricompense verificabili (RLVR) per modelli linguistici di grandi dimensioni come uno squilibrio del flusso di entropia a livello di token, dove i token che diminuiscono l'entropia superano costantemente quelli che la aumentano. Gli autori propongono l'Ottimizzazione del Flusso di Entropia On-Policy (OP) per affrontare questo problema, offrendo una spiegazione unificata del collasso in algoritmi come GRPO e migliorando le euristiche di regolarizzazione dell'entropia a grana grossa e di clipping basato sul rapporto.

Fatti principali

Articolo arXiv 2605.11491
Algoritmi RLVR come GRPO soffrono di collasso dell'entropia
Il collasso dell'entropia porta a determinismo prematuro e ottimizzazione instabile
I rimedi esistenti includono la regolarizzazione dell'entropia e le euristiche di clipping basato sul rapporto
L'articolo riesamina il collasso dell'entropia dalla prospettiva del flusso di entropia a livello di token
I token che diminuiscono l'entropia superano costantemente quelli che la aumentano
Propone l'Ottimizzazione del Flusso di Entropia On-Policy (OP)
Fornisce una spiegazione unificata del collasso dell'entropia negli algoritmi RLVR esistenti

L'ottimizzazione del flusso di entropia on-policy previene il collasso dell'entropia in RLVR

Fatti principali

Entità

Istituzioni

Fonti