ARTFEED — Contemporary Art Intelligence

Il framework DCPO separa ragionamento e calibrazione in RLVR

ai-technology · 2026-05-01

Un nuovo framework chiamato DCPO (Decoupled Calibration and Policy Optimization) affronta il problema del degrado della calibrazione nell'apprendimento per rinforzo da ricompense verificabili (RLVR) per modelli linguistici di grandi dimensioni. I ricercatori hanno identificato un conflitto fondamentale nel gradiente tra la massimizzazione dell'accuratezza della politica e la minimizzazione dell'errore di calibrazione, che porta i modelli a diventare eccessivamente fiduciosi in risposte errate. DCPO separa sistematicamente gli obiettivi di ragionamento e calibrazione, preservando un'accuratezza paragonabile a GRPO, ottenendo al contempo una calibrazione superiore e mitigando l'eccessiva fiducia. Lo studio fornisce analisi teoriche e soluzioni pratiche per migliorare l'affidabilità dei LLM.

Fatti principali

  • RLVR migliora il ragionamento dei LLM ma causa degrado della calibrazione
  • I modelli diventano eccessivamente fiduciosi in risposte errate
  • Esiste un conflitto nel gradiente tra obiettivi di accuratezza e calibrazione
  • DCPO separa gli obiettivi di ragionamento e calibrazione
  • DCPO preserva l'accuratezza paragonabile a GRPO
  • DCPO raggiunge la migliore performance di calibrazione
  • DCPO mitiga sostanzialmente il problema dell'eccessiva fiducia
  • Lo studio fornisce approfondimenti teorici e una soluzione pratica

Entità

Fonti