Il framework DCPO separa ragionamento e calibrazione in RLVR

ai-technology · 2026-05-01

Un nuovo framework chiamato DCPO (Decoupled Calibration and Policy Optimization) affronta il problema del degrado della calibrazione nell'apprendimento per rinforzo da ricompense verificabili (RLVR) per modelli linguistici di grandi dimensioni. I ricercatori hanno identificato un conflitto fondamentale nel gradiente tra la massimizzazione dell'accuratezza della politica e la minimizzazione dell'errore di calibrazione, che porta i modelli a diventare eccessivamente fiduciosi in risposte errate. DCPO separa sistematicamente gli obiettivi di ragionamento e calibrazione, preservando un'accuratezza paragonabile a GRPO, ottenendo al contempo una calibrazione superiore e mitigando l'eccessiva fiducia. Lo studio fornisce analisi teoriche e soluzioni pratiche per migliorare l'affidabilità dei LLM.

Fatti principali

RLVR migliora il ragionamento dei LLM ma causa degrado della calibrazione
I modelli diventano eccessivamente fiduciosi in risposte errate
Esiste un conflitto nel gradiente tra obiettivi di accuratezza e calibrazione
DCPO separa gli obiettivi di ragionamento e calibrazione
DCPO preserva l'accuratezza paragonabile a GRPO
DCPO raggiunge la migliore performance di calibrazione
DCPO mitiga sostanzialmente il problema dell'eccessiva fiducia
Lo studio fornisce approfondimenti teorici e una soluzione pratica

Entità

—

Fonti

arXiv cs.AI — 2026-05-01