EchoRL: Apprendimento per Rinforzo tramite Eco di Rollout

ai-technology · 2026-06-01

EchoRL introduce un metodo per affrontare la degenerazione del vantaggio nell'apprendimento per rinforzo con ricompense verificabili (RLVR) per modelli linguistici di grandi dimensioni. Durante il post-addestramento, una frazione crescente di prompt produce rollout in cui tutte le risposte autogenerate sono verificate come riuscite, portando a una deviazione standard nulla nelle ricompense e a un vantaggio nullo. Ciò causa la scomparsa dei gradienti della politica, limitando le prestazioni. EchoRL recupera segnali di apprendimento da questi rollout degenerati analizzando i pattern di entropia nelle traiettorie auree provenienti da modelli esperti esterni.

Fatti principali

1. RLVR è utilizzato per il post-addestramento per rafforzare il ragionamento nei LLM
2. La degenerazione del vantaggio si verifica quando tutti i rollout per un prompt sono verificati come riusciti
3. La degenerazione porta a deviazione standard nulla e vantaggio nullo
4. Il gradiente della politica scompare sotto vantaggi degenerati
5. EchoRL è ispirato dai pattern di entropia nelle traiettorie auree di modelli esperti

Entità

—

Fonti

arXiv cs.AI — 2026-06-01