POW3R: Premi basati su rubriche sensibili alla politica per RLVR
Un nuovo preprint arXiv (2605.20164) introduce POW3R, un framework di premi basati su rubriche sensibili alla politica per l'apprendimento per rinforzo con ricompense verificabili (RLVR). Gli autori sostengono che le aggregazioni standard di rubriche statiche confondono l'importanza assegnata dall'uomo con l'utilità per l'ottimizzazione, poiché i criteri possono essere saturi o irraggiungibili. POW3R preserva i pesi umani e l'equilibrio delle categorie, adattando i pesi delle ricompense a livello di criterio durante l'addestramento utilizzando il contrasto a livello di rollout. Questo affronta il limite per cui i criteri che distinguono i rollout non sono necessariamente quelli con i maggiori pesi umani.
Fatti principali
- L'articolo arXiv 2605.20164 introduce POW3R
- POW3R è un framework di premi basati su rubriche sensibili alla politica
- Affronta i problemi di aggregazione delle rubriche statiche in RLVR
- Le aggregazioni standard confondono l'importanza umana con il segnale di ottimizzazione
- POW3R preserva i pesi umani e l'equilibrio delle categorie
- Adatta i pesi delle ricompense a livello di criterio durante l'addestramento
- Utilizza il contrasto a livello di rollout per l'adattamento dei pesi
- Pubblicato su arXiv nel 2025
Entità
Istituzioni
- arXiv