RLVR migliora pass@1 ma non pass@k nei LLM
Uno studio recente pubblicato su arXiv (2605.18864) esamina l'efficacia dell'apprendimento per rinforzo con ricompense verificabili (RLVR) nel permettere ai grandi modelli linguistici di sviluppare nuove capacità di ragionamento rispetto al semplice miglioramento dell'efficienza di campionamento. I ricercatori hanno scoperto che RLVR migliora costantemente i punteggi pass@1 nei compiti di ragionamento, ma non produce miglioramenti simili in pass@k, indicando una mancanza di esplorazione. Individuano la regolarizzazione reverse-KL come un limite strutturale cruciale che mantiene la politica allineata con la distribuzione di riferimento, ostacolando approcci di ragionamento alternativi. Eliminare il termine KL o sostituirlo con forward-KL non risolve efficacemente il problema.
Fatti principali
- arXiv:2605.18864
- RLVR migliora pass@1 ma non pass@k
- La regolarizzazione reverse-KL ancora la politica alla distribuzione di riferimento
- Né la rimozione del KL né il forward-KL risolvono il problema
Entità
Istituzioni
- arXiv