EP-GRPO: Apprendimento per Rinforzo Allineato con Entropia-Progresso per LLM

ai-technology · 2026-05-07

È stato introdotto un nuovo framework di apprendimento per rinforzo chiamato Entropy-Progress Aligned Group Relative Policy Optimization (EP-GRPO) per affrontare i problemi di assegnazione del credito presenti in metodi attuali come GRPO. Questo framework, descritto in un preprint su arXiv (2605.04960), affronta tre sfide principali: la granularità uniforme a livello di token che trascura i diversi valori informativi, la polarità uniforme che penalizza erroneamente azioni corrette premiando errori, e il collasso a varianza zero che riduce i gradienti guidati dai risultati. Utilizzando una modulazione gated dall'entropia, EP-GRPO enfatizza i punti decisionali ad alta entropia e i segnali impliciti dalla divergenza delle politiche legata ai benefici dei risultati. Il framework quantifica efficacemente queste carenze, evidenziando disparità significative nell'informatività dei token, un diffuso disallineamento nella polarità a livello di passo e notevoli inefficienze di addestramento. Questa ricerca migliora il ragionamento degli LLM offrendo una guida densa e auto-supervisionata attraverso il flusso informativo intrinseco del modello.

Fatti principali

EP-GRPO è proposto per affrontare i fallimenti di assegnazione del credito in GRPO.
Tre fallimenti: granularità uniforme dei token, polarità uniforme, collasso a varianza zero.
EP-GRPO utilizza modulazione gated dall'entropia e segnali di processo impliciti.
Il framework sfrutta il flusso informativo intrinseco del modello per la guida.
Preprint disponibile su arXiv con ID 2605.04960.
L'apprendimento per rinforzo con ricompense verificabili (RLVR) è il contesto più ampio.
L'approccio mira a migliorare il ragionamento degli LLM.
La quantificazione sistematica dei fallimenti mostra un'informatività non uniforme dei token.

EP-GRPO: Apprendimento per Rinforzo Allineato con Entropia-Progresso per LLM

Fatti principali

Entità

Istituzioni

Fonti