Il rinforzo negativo adattivo potenzia il ragionamento dei LLM
Un nuovo preprint su arXiv (2605.07137) introduce l'Adaptive Negative Sample Reinforcement (A-NSR), un'estensione del Negative Sample Reinforcement (NSR) per migliorare il ragionamento nei Large Language Models (LLM). L'NSR penalizza i passaggi di ragionamento errati anziché premiare quelli corretti, eguagliando o superando framework complessi come PPO e GRPO lungo lo spettro Pass@k. Tuttavia, l'attuale NSR applica una penalità fissa in modo uniforme. L'A-NSR utilizza una schedulazione dipendente dal tempo: l'addestramento iniziale si concentra sulla correzione degli errori per stabilizzare il modello, per poi passare a regolazioni più sottili. L'articolo propone di bilanciare dinamicamente correzione e diversità nell'apprendimento per rinforzo con ricompense verificabili (RLVR).
Fatti principali
- L'articolo arXiv 2605.07137 introduce A-NSR
- A-NSR estende il Negative Sample Reinforcement (NSR)
- NSR penalizza i passaggi errati, non solo premia quelli corretti
- NSR eguaglia o supera PPO e GRPO lungo Pass@k
- L'attuale NSR usa una penalità fissa durante l'addestramento
- A-NSR usa funzioni di schedulazione dipendenti dal tempo
- L'addestramento iniziale si concentra sulla correzione degli errori
- L'addestramento successivo passa a regolazioni sottili
Entità
Istituzioni
- arXiv