Il framework DDRL mitiga i segnali spurii nell'apprendimento per rinforzo in tempo di test per il ragionamento matematico
Uno studio recente pubblicato su arXiv (2604.21327) affronta il problema dell'amplificazione dei segnali spurii nell'apprendimento per rinforzo in tempo di test (TTRL) relativo al ragionamento matematico. I ricercatori hanno scoperto che le risposte con consistenza media creano una regione di ambiguità, che contribuisce significativamente al rumore nella ricompensa. Hanno notato che la stima del vantaggio relativo al gruppo può esacerbare questi segnali fuorvianti. Per mitigare questo problema, il team ha introdotto il framework Debiased and Denoised test-time Reinforcement Learning (DDRL). DDRL utilizza un metodo di campionamento basato sulla frequenza per filtrare i campioni ambigui, garantendo al contempo una rappresentazione bilanciata di esempi positivi e negativi. Impiega inoltre una stima del vantaggio debiased con vantaggi fissi per eliminare il bias nell'ottimizzazione delle politiche relativa al gruppo e incorpora una strategia off-policy basata sul consenso. Lo studio è stato pubblicato il 27 aprile 2026.
Fatti principali
- L'apprendimento per rinforzo in tempo di test adatta i modelli durante l'inferenza tramite pseudo-etichettatura.
- Le risposte con consistenza media formano una regione di ambiguità che causa rumore nella ricompensa.
- I segnali spurii possono essere amplificati attraverso la stima del vantaggio relativo al gruppo.
- Il framework DDRL è stato proposto per mitigare i segnali spurii.
- DDRL utilizza il campionamento basato sulla frequenza per escludere campioni ambigui.
- La stima del vantaggio debiased con vantaggi fissi rimuove il bias relativo al gruppo.
- DDRL incorpora l'apprendimento off-policy basato sul consenso.
- L'articolo è stato pubblicato su arXiv il 27 aprile 2026.
Entità
Istituzioni
- arXiv