AVES-DPO: L'apprendimento delle preferenze con autocorrezione riduce le allucinazioni nei LVLM

other · 2026-04-29

I ricercatori propongono AVES-DPO (Alignment via VErified Self-correction DPO), un framework per mitigare le allucinazioni nei Large Vision-Language Models (LVLM). A differenza dei metodi esistenti di apprendimento delle preferenze che si basano su modelli proprietari—causando un disallineamento distribuzionale—AVES-DPO utilizza la conoscenza intrinseca del modello stesso per generare coppie di preferenza in-distribuzione. Un meccanismo di verifica basato sul consenso diagnostica diverse allucinazioni e guida il modello all'autocorrezione. Gli esperimenti mostrano che AVES-DPO supera i baselines nella mitigazione delle allucinazioni utilizzando solo 5.2k campioni. Il lavoro è pubblicato su arXiv.

Fatti principali

AVES-DPO sta per Alignment via VErified Self-correction DPO
Il framework affronta il disallineamento distribuzionale nell'apprendimento delle preferenze
Utilizza la verifica basata sul consenso per diagnosticare le allucinazioni
Il modello si autocorregge per generare coppie di preferenza
Richiede solo 5.2k campioni
Supera i baselines esistenti nella mitigazione delle allucinazioni
Pubblicato su arXiv sotto Computer Science > Artificial Intelligence
Cronologia delle sottomissioni disponibile su arXiv

AVES-DPO: L'apprendimento delle preferenze con autocorrezione riduce le allucinazioni nei LVLM

Fatti principali

Entità

Istituzioni

Fonti