RLCR: Addestrare Modelli Linguistici a Ragionare sull'Incertezza
Un nuovo metodo chiamato RLCR (Reinforcement Learning with Calibration Rewards) addestra modelli linguistici a generare sia previsioni che stime numeriche di confidenza, ottimizzando una funzione di ricompensa che migliora l'accuratezza e la stima calibrata della confidenza. Le funzioni di ricompensa binarie standard nell'RL per il ragionamento degradano la calibrazione e aumentano i tassi di allucinazione. RLCR affronta questo problema ampliando la funzione di ricompensa per penalizzare gli output a bassa confidenza.
Fatti principali
- 1. arXiv:2507.16806v2
- 2. RLCR sta per Reinforcement Learning with Calibration Rewards
- 3. Le funzioni di ricompensa binarie degradano la calibrazione e aumentano i tassi di allucinazione
- 4. RLCR migliora congiuntamente l'accuratezza e la stima calibrata della confidenza
- 5. I modelli linguistici generano sia previsioni che stime numeriche di confidenza dopo il ragionamento
- 6. La funzione di ricompensa amplia una ricompensa binaria per penalizzare gli output a bassa confidenza
Entità
—