Il framework DCPO separa ragionamento e calibrazione in RLVR
Un nuovo framework chiamato DCPO (Decoupled Calibration and Policy Optimization) affronta il problema del degrado della calibrazione nell'apprendimento per rinforzo da ricompense verificabili (RLVR) per modelli linguistici di grandi dimensioni. I ricercatori hanno identificato un conflitto fondamentale nel gradiente tra la massimizzazione dell'accuratezza della politica e la minimizzazione dell'errore di calibrazione, che porta i modelli a diventare eccessivamente fiduciosi in risposte errate. DCPO separa sistematicamente gli obiettivi di ragionamento e calibrazione, preservando un'accuratezza paragonabile a GRPO, ottenendo al contempo una calibrazione superiore e mitigando l'eccessiva fiducia. Lo studio fornisce analisi teoriche e soluzioni pratiche per migliorare l'affidabilità dei LLM.
Fatti principali
- RLVR migliora il ragionamento dei LLM ma causa degrado della calibrazione
- I modelli diventano eccessivamente fiduciosi in risposte errate
- Esiste un conflitto nel gradiente tra obiettivi di accuratezza e calibrazione
- DCPO separa gli obiettivi di ragionamento e calibrazione
- DCPO preserva l'accuratezza paragonabile a GRPO
- DCPO raggiunge la migliore performance di calibrazione
- DCPO mitiga sostanzialmente il problema dell'eccessiva fiducia
- Lo studio fornisce approfondimenti teorici e una soluzione pratica
Entità
—