RC-DPO: Mitigare le allucinazioni nei modelli di ragionamento multimodali di grandi dimensioni

ai-technology · 2026-05-28

Un nuovo articolo su arXiv (2605.27906) introduce l'ottimizzazione diretta delle preferenze condizionata dal ragionamento (RC-DPO) per ridurre le allucinazioni nei modelli di ragionamento multimodali di grandi dimensioni. Gli autori sostengono che l'attuale ottimizzazione diretta delle preferenze (DPO) a livello di risposta tratta la catena di pensiero (CoT) e la risposta finale come un output monolitico, portando a una supervisione insufficiente a livello di CoT. RC-DPO modella esplicitamente la CoT come condizione per la generazione della risposta e confronta le preferenze in diverse condizioni di CoT per la stessa risposta preferita, con l'obiettivo di migliorare la qualità del ragionamento e ridurre le allucinazioni.

Fatti principali

L'articolo arXiv 2605.27906 propone RC-DPO
RC-DPO affronta le allucinazioni nei modelli di ragionamento multimodali di grandi dimensioni
La DPO esistente tratta CoT e risposta come output monolitico
RC-DPO modella la CoT come condizione per la generazione della risposta
RC-DPO confronta le preferenze in diverse condizioni di CoT
L'articolo rivela che la DPO a livello di risposta ha prestazioni simili all'ottimizzazione basata solo sulla risposta
RC-DPO promuove una supervisione a livello di CoT specifica per la risposta
Il metodo mira a migliorare il ragionamento e ridurre le allucinazioni

RC-DPO: Mitigare le allucinazioni nei modelli di ragionamento multimodali di grandi dimensioni

Fatti principali

Entità

Istituzioni

Fonti