R³L: Apprendimento per Rinforzo con Riflessione e Riprova per il Ragionamento LLM

ai-technology · 2026-05-25

Un nuovo metodo di apprendimento per rinforzo chiamato R³L (Reflect-then-Retry Reinforcement Learning) è stato proposto per migliorare le capacità di ragionamento e agentive dei LLM. Il metodo affronta le sfide di esplorazione e sfruttamento utilizzando feedback linguistici per diagnosticare errori e trasformare tentativi falliti in traiettorie di successo, riducendo i costi di rollout. Introduce inoltre l'assegnazione di credito pivotale e l'amplificazione positiva per stabilizzare l'addestramento e migliorare l'apprendimento da segnali positivi. L'approccio passa dal campionamento stocastico alla sintesi attiva, con l'obiettivo di superare i bassi tassi di successo su compiti difficili e l'assegnazione grossolana del credito nelle ricompense a livello di traiettoria.

Fatti principali

1. R³L sta per Reflect-then-Retry Reinforcement Learning con Esplorazione Guidata dal Linguaggio, Credito Pivotale e Amplificazione Positiva.
2. Il metodo utilizza feedback linguistici per diagnosticare errori e convertire tentativi falliti in tentativi riusciti.
3. Riduce i costi di rollout ripartendo da traiettorie fallite anziché da zero.
4. R³L affronta l'assegnazione grossolana del credito concentrandosi sui passi pivotali e amplificando i segnali positivi.
5. L'approccio mira a migliorare sia l'esplorazione che lo sfruttamento nei compiti di ragionamento LLM.
6. L'articolo è disponibile su arXiv con ID 2601.03715.
7. Il metodo passa dal campionamento stocastico alla sintesi attiva di traiettorie di alta qualità.
8. R³L è progettato per stabilizzare l'addestramento in gruppi dominati da fallimenti.

R³L: Apprendimento per Rinforzo con Riflessione e Riprova per il Ragionamento LLM

Fatti principali

Entità

Istituzioni

Fonti