Gli errori di ricompensa nel policy gradient possono essere benefici

other · 2026-04-30

Una nuova analisi teorica sfida l'assunzione che tutti gli errori di ricompensa danneggino l'apprendimento per rinforzo. Lo studio categorizza gli errori nelle ricompense proxy utilizzate per l'ottimizzazione del policy gradient, mostrando che alcune deviazioni dalla verità fondamentale sono benigne o addirittura benefiche, prevenendo la stagnazione su output mediocri. Vengono discusse le implicazioni pratiche per l'RLHF.

Fatti principali

1. arXiv:2604.25872v1
2. Tipo di annuncio: cross
3. Abstract: L'addestramento di modelli linguistici tramite apprendimento per rinforzo si basa spesso su ricompense proxy imperfette
4. Metriche standard come l'accuratezza del ranking trattano le ricompense errate come strettamente dannose
5. Il lavoro evidenzia che non tutte le deviazioni dalla verità fondamentale sono uguali
6. L'analisi categorizza gli errori di ricompensa in base al loro effetto sull'aumento della ricompensa reale
7. Gli errori di ricompensa possono essere benigni o benefici, impedendo alla politica di bloccarsi su output mediocri
8. Vengono presentate le implicazioni pratiche per l'apprendimento per rinforzo dal feedback umano (RLHF)

Entità

—

Fonti

arXiv cs.AI — 2026-04-29