Il ragionamento controfattuale riduce la varianza nell'assegnazione del credito nell'apprendimento per rinforzo dei LLM
Un nuovo framework affronta il problema dell'assegnazione del credito nell'apprendimento per rinforzo per il ragionamento multi-step con grandi modelli linguistici. Le ricompense terminali sparse causano un'elevata varianza del gradiente e un addestramento instabile. Il metodo proposto campiona più traiettorie di ragionamento sotto lo stesso input, utilizzando le loro differenze come approssimazione implicita di decisioni alternative per costruire uno stimatore del vantaggio sensibile al passo. Questo trasforma le ricompense terminali sparse in segnali di apprendimento a livello di processo. L'algoritmo risultante, Implicit Behavior Policy Optimization (IBPO), migliora la stabilità dell'addestramento e i limiti superiori delle prestazioni in compiti di ragionamento matematico.
Fatti principali
- L'apprendimento per rinforzo per il ragionamento multi-step con LLM si basa su ricompense terminali sparse.
- Le ricompense terminali sparse portano a una scarsa assegnazione del credito e a un'elevata varianza del gradiente.
- Il framework campiona più traiettorie di ragionamento sotto lo stesso input.
- Le differenze tra le traiettorie approssimano decisioni alternative.
- Viene costruito uno stimatore implicito del vantaggio a livello di processo.
- L'algoritmo si chiama Implicit Behavior Policy Optimization (IBPO).
- IBPO migliora la stabilità dell'addestramento e i limiti superiori delle prestazioni.
- Il lavoro è pubblicato su arXiv con ID 2605.16302.
Entità
Istituzioni
- arXiv