ARTFEED — Contemporary Art Intelligence

Apprendimento per Rinforzo con Verificatori Rumorosi

other · 2026-05-25

Un recente articolo su arXiv (2510.00915) affronta la sfida posta da verificatori inaffidabili nell'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR). Questo approccio mira a sostituire la costosa etichettatura umana con verificatori automatizzati; tuttavia, l'uso di ricompense binarizzate può portare sia a falsi positivi che a falsi negativi. I ricercatori definiscono l'inaffidabilità dei verificatori come un canale di ricompensa stocastico caratterizzato da tassi di rumore asimmetrici ρ0 per i falsi positivi e ρ1 per i falsi negativi. Presentano due semplici correzioni: una correzione all'indietro che produce una ricompensa surrogata imparziale e uno stimatore del gradiente della politica, e una correzione in avanti che aggiusta i termini della funzione di punteggio per garantire che l'aggiornamento atteso sia allineato con la direzione del gradiente pulito, basandosi esclusivamente sul tasso di falsi negativi. Queste correzioni sono integrate come hook nell'ottimizzazione relativa della politica di gruppo.

Fatti principali

  • arXiv:2510.00915v4
  • RLVR sostituisce l'etichettatura umana con verificatori automatizzati
  • Ricompense binarizzate a {0,1} riducono l'hacking dei verificatori
  • Verificatori imperfetti causano falsi negativi e falsi positivi
  • Formalizzato come canale di ricompensa stocastico con tassi di rumore asimmetrici ρ0 e ρ1
  • La correzione all'indietro produce una ricompensa surrogata imparziale e uno stimatore del gradiente della politica
  • La correzione in avanti ripesa i termini della funzione di punteggio
  • Implementato come hook leggeri nell'ottimizzazione relativa della politica di gruppo

Entità

Istituzioni

  • arXiv

Fonti