ARTFEED — Contemporary Art Intelligence

Il rinforzo negativo adattivo potenzia il ragionamento dei LLM

ai-technology · 2026-05-11

Un nuovo preprint su arXiv (2605.07137) introduce l'Adaptive Negative Sample Reinforcement (A-NSR), un'estensione del Negative Sample Reinforcement (NSR) per migliorare il ragionamento nei Large Language Models (LLM). L'NSR penalizza i passaggi di ragionamento errati anziché premiare quelli corretti, eguagliando o superando framework complessi come PPO e GRPO lungo lo spettro Pass@k. Tuttavia, l'attuale NSR applica una penalità fissa in modo uniforme. L'A-NSR utilizza una schedulazione dipendente dal tempo: l'addestramento iniziale si concentra sulla correzione degli errori per stabilizzare il modello, per poi passare a regolazioni più sottili. L'articolo propone di bilanciare dinamicamente correzione e diversità nell'apprendimento per rinforzo con ricompense verificabili (RLVR).

Fatti principali

  • L'articolo arXiv 2605.07137 introduce A-NSR
  • A-NSR estende il Negative Sample Reinforcement (NSR)
  • NSR penalizza i passaggi errati, non solo premia quelli corretti
  • NSR eguaglia o supera PPO e GRPO lungo Pass@k
  • L'attuale NSR usa una penalità fissa durante l'addestramento
  • A-NSR usa funzioni di schedulazione dipendenti dal tempo
  • L'addestramento iniziale si concentra sulla correzione degli errori
  • L'addestramento successivo passa a regolazioni sottili

Entità

Istituzioni

  • arXiv

Fonti