ARTFEED — Contemporary Art Intelligence

RC-DPO: Mitigare le allucinazioni nei modelli di ragionamento multimodali di grandi dimensioni

ai-technology · 2026-05-28

Un nuovo articolo su arXiv (2605.27906) introduce l'ottimizzazione diretta delle preferenze condizionata dal ragionamento (RC-DPO) per ridurre le allucinazioni nei modelli di ragionamento multimodali di grandi dimensioni. Gli autori sostengono che l'attuale ottimizzazione diretta delle preferenze (DPO) a livello di risposta tratta la catena di pensiero (CoT) e la risposta finale come un output monolitico, portando a una supervisione insufficiente a livello di CoT. RC-DPO modella esplicitamente la CoT come condizione per la generazione della risposta e confronta le preferenze in diverse condizioni di CoT per la stessa risposta preferita, con l'obiettivo di migliorare la qualità del ragionamento e ridurre le allucinazioni.

Fatti principali

  • L'articolo arXiv 2605.27906 propone RC-DPO
  • RC-DPO affronta le allucinazioni nei modelli di ragionamento multimodali di grandi dimensioni
  • La DPO esistente tratta CoT e risposta come output monolitico
  • RC-DPO modella la CoT come condizione per la generazione della risposta
  • RC-DPO confronta le preferenze in diverse condizioni di CoT
  • L'articolo rivela che la DPO a livello di risposta ha prestazioni simili all'ottimizzazione basata solo sulla risposta
  • RC-DPO promuove una supervisione a livello di CoT specifica per la risposta
  • Il metodo mira a migliorare il ragionamento e ridurre le allucinazioni

Entità

Istituzioni

  • arXiv

Fonti