Apprendimento per Rinforzo Inverso per Ricompense di Ragionamento nei LLM
È stato introdotto un nuovo framework chiamato apprendimento per rinforzo inverso avversario (AIRL) per derivare ricompense di ragionamento per modelli linguistici di grandi dimensioni (LLM) direttamente da dimostrazioni esperte, affrontando le carenze del fine-tuning supervisionato (SFT) e dell'apprendimento per rinforzo basato sui risultati (RL). Questo metodo valuta diverse granularità di ricompensa: le ricompense sparse si concentrano sulla qualità complessiva della traiettoria e sulla stabilità dell'addestramento, mentre le ricompense più dense offrono una guida passo-passo per individuare errori, ma pongono sfide di ottimizzazione. Le ricompense ottenute fungono da segnali di addestramento, superando spesso le prestazioni del RL basato sui risultati. Questo framework è descritto nel documento arXiv:2510.01857v3, disponibile su arXiv.
Fatti principali
- Propone l'apprendimento per rinforzo inverso avversario (AIRL) per ricompense di ragionamento.
- Apprende ricompense da dimostrazioni esperte, non da verificatori a livello di risultato.
- Valuta granularità di ricompensa sparsa, a intervalli e densa.
- Le ricompense sparse si concentrano sulla qualità globale della traiettoria e sulla stabilità.
- Le ricompense dense offrono supervisione a livello di passo ma sono più difficili da ottimizzare.
- Le ricompense apprese sono utili come segnali di addestramento.
- Supera il RL basato sui risultati in molti casi.
- Documento disponibile su arXiv con ID 2510.01857v3.
Entità
Istituzioni
- arXiv