R³L: Apprendimento per Rinforzo con Riflessione e Riprova per il Ragionamento LLM
Un nuovo metodo di apprendimento per rinforzo chiamato R³L (Reflect-then-Retry Reinforcement Learning) è stato proposto per migliorare le capacità di ragionamento e agentive dei LLM. Il metodo affronta le sfide di esplorazione e sfruttamento utilizzando feedback linguistici per diagnosticare errori e trasformare tentativi falliti in traiettorie di successo, riducendo i costi di rollout. Introduce inoltre l'assegnazione di credito pivotale e l'amplificazione positiva per stabilizzare l'addestramento e migliorare l'apprendimento da segnali positivi. L'approccio passa dal campionamento stocastico alla sintesi attiva, con l'obiettivo di superare i bassi tassi di successo su compiti difficili e l'assegnazione grossolana del credito nelle ricompense a livello di traiettoria.
Fatti principali
- 1. R³L sta per Reflect-then-Retry Reinforcement Learning con Esplorazione Guidata dal Linguaggio, Credito Pivotale e Amplificazione Positiva.
- 2. Il metodo utilizza feedback linguistici per diagnosticare errori e convertire tentativi falliti in tentativi riusciti.
- 3. Riduce i costi di rollout ripartendo da traiettorie fallite anziché da zero.
- 4. R³L affronta l'assegnazione grossolana del credito concentrandosi sui passi pivotali e amplificando i segnali positivi.
- 5. L'approccio mira a migliorare sia l'esplorazione che lo sfruttamento nei compiti di ragionamento LLM.
- 6. L'articolo è disponibile su arXiv con ID 2601.03715.
- 7. Il metodo passa dal campionamento stocastico alla sintesi attiva di traiettorie di alta qualità.
- 8. R³L è progettato per stabilizzare l'addestramento in gruppi dominati da fallimenti.
Entità
Istituzioni
- arXiv