ARTFEED — Contemporary Art Intelligence

L'ottimizzazione del flusso di entropia on-policy previene il collasso dell'entropia in RLVR

publication · 2026-05-13

Un nuovo articolo su arXiv (2605.11491) identifica il collasso dell'entropia nell'apprendimento per rinforzo con ricompense verificabili (RLVR) per modelli linguistici di grandi dimensioni come uno squilibrio del flusso di entropia a livello di token, dove i token che diminuiscono l'entropia superano costantemente quelli che la aumentano. Gli autori propongono l'Ottimizzazione del Flusso di Entropia On-Policy (OP) per affrontare questo problema, offrendo una spiegazione unificata del collasso in algoritmi come GRPO e migliorando le euristiche di regolarizzazione dell'entropia a grana grossa e di clipping basato sul rapporto.

Fatti principali

  • Articolo arXiv 2605.11491
  • Algoritmi RLVR come GRPO soffrono di collasso dell'entropia
  • Il collasso dell'entropia porta a determinismo prematuro e ottimizzazione instabile
  • I rimedi esistenti includono la regolarizzazione dell'entropia e le euristiche di clipping basato sul rapporto
  • L'articolo riesamina il collasso dell'entropia dalla prospettiva del flusso di entropia a livello di token
  • I token che diminuiscono l'entropia superano costantemente quelli che la aumentano
  • Propone l'Ottimizzazione del Flusso di Entropia On-Policy (OP)
  • Fornisce una spiegazione unificata del collasso dell'entropia negli algoritmi RLVR esistenti

Entità

Istituzioni

  • arXiv

Fonti