RC-DPO: Mitigare le allucinazioni nei modelli di ragionamento multimodali di grandi dimensioni
Un nuovo articolo su arXiv (2605.27906) introduce l'ottimizzazione diretta delle preferenze condizionata dal ragionamento (RC-DPO) per ridurre le allucinazioni nei modelli di ragionamento multimodali di grandi dimensioni. Gli autori sostengono che l'attuale ottimizzazione diretta delle preferenze (DPO) a livello di risposta tratta la catena di pensiero (CoT) e la risposta finale come un output monolitico, portando a una supervisione insufficiente a livello di CoT. RC-DPO modella esplicitamente la CoT come condizione per la generazione della risposta e confronta le preferenze in diverse condizioni di CoT per la stessa risposta preferita, con l'obiettivo di migliorare la qualità del ragionamento e ridurre le allucinazioni.
Fatti principali
- L'articolo arXiv 2605.27906 propone RC-DPO
- RC-DPO affronta le allucinazioni nei modelli di ragionamento multimodali di grandi dimensioni
- La DPO esistente tratta CoT e risposta come output monolitico
- RC-DPO modella la CoT come condizione per la generazione della risposta
- RC-DPO confronta le preferenze in diverse condizioni di CoT
- L'articolo rivela che la DPO a livello di risposta ha prestazioni simili all'ottimizzazione basata solo sulla risposta
- RC-DPO promuove una supervisione a livello di CoT specifica per la risposta
- Il metodo mira a migliorare il ragionamento e ridurre le allucinazioni
Entità
Istituzioni
- arXiv