L'ottimizzazione del flusso di entropia on-policy previene il collasso dell'entropia in RLVR
Un nuovo articolo su arXiv (2605.11491) identifica il collasso dell'entropia nell'apprendimento per rinforzo con ricompense verificabili (RLVR) per modelli linguistici di grandi dimensioni come uno squilibrio del flusso di entropia a livello di token, dove i token che diminuiscono l'entropia superano costantemente quelli che la aumentano. Gli autori propongono l'Ottimizzazione del Flusso di Entropia On-Policy (OP) per affrontare questo problema, offrendo una spiegazione unificata del collasso in algoritmi come GRPO e migliorando le euristiche di regolarizzazione dell'entropia a grana grossa e di clipping basato sul rapporto.
Fatti principali
- Articolo arXiv 2605.11491
- Algoritmi RLVR come GRPO soffrono di collasso dell'entropia
- Il collasso dell'entropia porta a determinismo prematuro e ottimizzazione instabile
- I rimedi esistenti includono la regolarizzazione dell'entropia e le euristiche di clipping basato sul rapporto
- L'articolo riesamina il collasso dell'entropia dalla prospettiva del flusso di entropia a livello di token
- I token che diminuiscono l'entropia superano costantemente quelli che la aumentano
- Propone l'Ottimizzazione del Flusso di Entropia On-Policy (OP)
- Fornisce una spiegazione unificata del collasso dell'entropia negli algoritmi RLVR esistenti
Entità
Istituzioni
- arXiv