Il rinforzo negativo adattivo potenzia il ragionamento dei LLM

ai-technology · 2026-05-11

Un nuovo preprint su arXiv (2605.07137) introduce l'Adaptive Negative Sample Reinforcement (A-NSR), un'estensione del Negative Sample Reinforcement (NSR) per migliorare il ragionamento nei Large Language Models (LLM). L'NSR penalizza i passaggi di ragionamento errati anziché premiare quelli corretti, eguagliando o superando framework complessi come PPO e GRPO lungo lo spettro Pass@k. Tuttavia, l'attuale NSR applica una penalità fissa in modo uniforme. L'A-NSR utilizza una schedulazione dipendente dal tempo: l'addestramento iniziale si concentra sulla correzione degli errori per stabilizzare il modello, per poi passare a regolazioni più sottili. L'articolo propone di bilanciare dinamicamente correzione e diversità nell'apprendimento per rinforzo con ricompense verificabili (RLVR).

Fatti principali

L'articolo arXiv 2605.07137 introduce A-NSR
A-NSR estende il Negative Sample Reinforcement (NSR)
NSR penalizza i passaggi errati, non solo premia quelli corretti
NSR eguaglia o supera PPO e GRPO lungo Pass@k
L'attuale NSR usa una penalità fissa durante l'addestramento
A-NSR usa funzioni di schedulazione dipendenti dal tempo
L'addestramento iniziale si concentra sulla correzione degli errori
L'addestramento successivo passa a regolazioni sottili

Il rinforzo negativo adattivo potenzia il ragionamento dei LLM

Fatti principali

Entità

Istituzioni

Fonti