Apprendimento per Rinforzo con Verificatori Rumorosi

other · 2026-05-25

Un recente articolo su arXiv (2510.00915) affronta la sfida posta da verificatori inaffidabili nell'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR). Questo approccio mira a sostituire la costosa etichettatura umana con verificatori automatizzati; tuttavia, l'uso di ricompense binarizzate può portare sia a falsi positivi che a falsi negativi. I ricercatori definiscono l'inaffidabilità dei verificatori come un canale di ricompensa stocastico caratterizzato da tassi di rumore asimmetrici ρ0 per i falsi positivi e ρ1 per i falsi negativi. Presentano due semplici correzioni: una correzione all'indietro che produce una ricompensa surrogata imparziale e uno stimatore del gradiente della politica, e una correzione in avanti che aggiusta i termini della funzione di punteggio per garantire che l'aggiornamento atteso sia allineato con la direzione del gradiente pulito, basandosi esclusivamente sul tasso di falsi negativi. Queste correzioni sono integrate come hook nell'ottimizzazione relativa della politica di gruppo.

Fatti principali

arXiv:2510.00915v4
RLVR sostituisce l'etichettatura umana con verificatori automatizzati
Ricompense binarizzate a {0,1} riducono l'hacking dei verificatori
Verificatori imperfetti causano falsi negativi e falsi positivi
Formalizzato come canale di ricompensa stocastico con tassi di rumore asimmetrici ρ0 e ρ1
La correzione all'indietro produce una ricompensa surrogata imparziale e uno stimatore del gradiente della politica
La correzione in avanti ripesa i termini della funzione di punteggio
Implementato come hook leggeri nell'ottimizzazione relativa della politica di gruppo

Apprendimento per Rinforzo con Verificatori Rumorosi

Fatti principali

Entità

Istituzioni

Fonti