RLCR: Addestrare Modelli Linguistici a Ragionare sull'Incertezza

ai-technology · 2026-05-18

Un nuovo metodo chiamato RLCR (Reinforcement Learning with Calibration Rewards) addestra modelli linguistici a generare sia previsioni che stime numeriche di confidenza, ottimizzando una funzione di ricompensa che migliora l'accuratezza e la stima calibrata della confidenza. Le funzioni di ricompensa binarie standard nell'RL per il ragionamento degradano la calibrazione e aumentano i tassi di allucinazione. RLCR affronta questo problema ampliando la funzione di ricompensa per penalizzare gli output a bassa confidenza.

Fatti principali

1. arXiv:2507.16806v2
2. RLCR sta per Reinforcement Learning with Calibration Rewards
3. Le funzioni di ricompensa binarie degradano la calibrazione e aumentano i tassi di allucinazione
4. RLCR migliora congiuntamente l'accuratezza e la stima calibrata della confidenza
5. I modelli linguistici generano sia previsioni che stime numeriche di confidenza dopo il ragionamento
6. La funzione di ricompensa amplia una ricompensa binaria per penalizzare gli output a bassa confidenza

Entità

—

Fonti

arXiv cs.AI — 2026-05-18