EchoRL: Apprendimento per Rinforzo tramite Eco di Rollout
EchoRL introduce un metodo per affrontare la degenerazione del vantaggio nell'apprendimento per rinforzo con ricompense verificabili (RLVR) per modelli linguistici di grandi dimensioni. Durante il post-addestramento, una frazione crescente di prompt produce rollout in cui tutte le risposte autogenerate sono verificate come riuscite, portando a una deviazione standard nulla nelle ricompense e a un vantaggio nullo. Ciò causa la scomparsa dei gradienti della politica, limitando le prestazioni. EchoRL recupera segnali di apprendimento da questi rollout degenerati analizzando i pattern di entropia nelle traiettorie auree provenienti da modelli esperti esterni.
Fatti principali
- 1. RLVR è utilizzato per il post-addestramento per rafforzare il ragionamento nei LLM
- 2. La degenerazione del vantaggio si verifica quando tutti i rollout per un prompt sono verificati come riusciti
- 3. La degenerazione porta a deviazione standard nulla e vantaggio nullo
- 4. Il gradiente della politica scompare sotto vantaggi degenerati
- 5. EchoRL è ispirato dai pattern di entropia nelle traiettorie auree di modelli esperti
Entità
—