JURY-RL: Framework RLVR senza etichette separa il voto dalla verifica formale
Il nuovo framework JURY-RL affronta il problema dei falsi positivi nell'apprendimento per rinforzo senza etichette con ricompense verificabili (RLVR) specificamente per i modelli linguistici di grandi dimensioni (LLM). I metodi RLVR tradizionali dipendono da risposte generate da umani o specifiche di ricompensa curate, che possono essere costose. Mentre i metodi senza etichette come il voto di maggioranza o l'uso di LLM come giudici eliminano i costi di annotazione, rischiano di generare falsi positivi che possono disturbare l'addestramento. JURY-RL separa la proposta di risposte dall'assegnazione della ricompensa: i rollout del modello suggeriscono una risposta candidata, e un verificatore formale valuta se quella risposta è idonea per una ricompensa positiva. Solo i rollout che si allineano con la risposta votata dalla maggioranza ricevono ricompense dopo la verifica riuscita in Lean. Se la verifica produce risultati incerti, una ricompensa di fallback chiamata ResZero (Residual-Zero) scarta la proposta di maggioranza non verificata e rialloca un segnale a media zero e varianza preservata. Questa strategia mira a migliorare la stabilità dell'addestramento in aree verificabili meccanicamente senza la necessità di annotazioni umane.
Fatti principali
- JURY-RL è un framework RLVR senza etichette per LLM.
- Separa la proposta di risposta dall'assegnazione della ricompensa.
- I voti dai rollout del modello propongono una risposta candidata.
- Un verificatore formale determina se il candidato riceve una ricompensa positiva.
- Solo i rollout che corrispondono alla risposta con pluralità vengono ricompensati quando verificati in Lean.
- La ricompensa di fallback ResZero scarta le proposte di pluralità non verificate.
- ResZero ridistribuisce un segnale a media zero e varianza preservata.
- Il framework affronta i falsi positivi dei metodi senza etichette.
Entità
Istituzioni
- arXiv