EP-GRPO: Apprendimento per Rinforzo Allineato con Entropia-Progresso per LLM
È stato introdotto un nuovo framework di apprendimento per rinforzo chiamato Entropy-Progress Aligned Group Relative Policy Optimization (EP-GRPO) per affrontare i problemi di assegnazione del credito presenti in metodi attuali come GRPO. Questo framework, descritto in un preprint su arXiv (2605.04960), affronta tre sfide principali: la granularità uniforme a livello di token che trascura i diversi valori informativi, la polarità uniforme che penalizza erroneamente azioni corrette premiando errori, e il collasso a varianza zero che riduce i gradienti guidati dai risultati. Utilizzando una modulazione gated dall'entropia, EP-GRPO enfatizza i punti decisionali ad alta entropia e i segnali impliciti dalla divergenza delle politiche legata ai benefici dei risultati. Il framework quantifica efficacemente queste carenze, evidenziando disparità significative nell'informatività dei token, un diffuso disallineamento nella polarità a livello di passo e notevoli inefficienze di addestramento. Questa ricerca migliora il ragionamento degli LLM offrendo una guida densa e auto-supervisionata attraverso il flusso informativo intrinseco del modello.
Fatti principali
- EP-GRPO è proposto per affrontare i fallimenti di assegnazione del credito in GRPO.
- Tre fallimenti: granularità uniforme dei token, polarità uniforme, collasso a varianza zero.
- EP-GRPO utilizza modulazione gated dall'entropia e segnali di processo impliciti.
- Il framework sfrutta il flusso informativo intrinseco del modello per la guida.
- Preprint disponibile su arXiv con ID 2605.04960.
- L'apprendimento per rinforzo con ricompense verificabili (RLVR) è il contesto più ampio.
- L'approccio mira a migliorare il ragionamento degli LLM.
- La quantificazione sistematica dei fallimenti mostra un'informatività non uniforme dei token.
Entità
Istituzioni
- arXiv