RLVR migliora pass@1 ma non pass@k nei LLM

ai-technology · 2026-05-20

Uno studio recente pubblicato su arXiv (2605.18864) esamina l'efficacia dell'apprendimento per rinforzo con ricompense verificabili (RLVR) nel permettere ai grandi modelli linguistici di sviluppare nuove capacità di ragionamento rispetto al semplice miglioramento dell'efficienza di campionamento. I ricercatori hanno scoperto che RLVR migliora costantemente i punteggi pass@1 nei compiti di ragionamento, ma non produce miglioramenti simili in pass@k, indicando una mancanza di esplorazione. Individuano la regolarizzazione reverse-KL come un limite strutturale cruciale che mantiene la politica allineata con la distribuzione di riferimento, ostacolando approcci di ragionamento alternativi. Eliminare il termine KL o sostituirlo con forward-KL non risolve efficacemente il problema.

Fatti principali

arXiv:2605.18864
RLVR migliora pass@1 ma non pass@k
La regolarizzazione reverse-KL ancora la politica alla distribuzione di riferimento
Né la rimozione del KL né il forward-KL risolvono il problema

RLVR migliora pass@1 ma non pass@k nei LLM

Fatti principali

Entità

Istituzioni

Fonti