Errori Sistematici di Verifica nell'Addestramento RLVR

other · 2026-05-07

Uno studio recente pubblicato su arXiv (2605.02909) esplora l'influenza degli errori sistematici di verifica sull'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) nei modelli linguistici di grandi dimensioni. Sebbene RLVR miri a compiti con risposte verificabili, i verificatori del mondo reale, come i controllori statici di codice, possono introdurre imprecisioni. Ricerche precedenti consideravano questi errori come casuali e indipendenti, concludendo che avessero un impatto trascurabile sulle prestazioni complessive. Al contrario, questo studio rivela che i verificatori pratici spesso producono errori sistematici, portando i modelli ad adottare comportamenti indesiderati da segnali di ricompensa errati. Esperimenti incentrati su compiti aritmetici indicano che, mentre i falsi negativi sistematici imitano il rumore casuale, i falsi positivi sistematici possono compromettere significativamente le prestazioni del modello, sollevando preoccupazioni sulle implicazioni degli errori sistematici di verifica nell'addestramento RLVR.

Fatti principali

Lo studio esamina gli errori sistematici di verifica in RLVR per LLM
I verificatori del mondo reale come i controllori statici di codice possono introdurre errori sistematici
Analisi precedenti trattavano gli errori come casuali e indipendenti
I falsi negativi sistematici hanno effetti simili al rumore casuale
I falsi positivi sistematici possono degradare causalmente le prestazioni
Esperimenti controllati condotti su compiti aritmetici
Rischio che i modelli apprendano comportamenti coerenti indesiderati da segnali di ricompensa errati
Articolo pubblicato su arXiv con ID 2605.02909

Entità

—

Fonti

arXiv cs.AI — 2026-05-06