AVES-DPO: L'apprendimento delle preferenze con autocorrezione riduce le allucinazioni nei LVLM
I ricercatori propongono AVES-DPO (Alignment via VErified Self-correction DPO), un framework per mitigare le allucinazioni nei Large Vision-Language Models (LVLM). A differenza dei metodi esistenti di apprendimento delle preferenze che si basano su modelli proprietari—causando un disallineamento distribuzionale—AVES-DPO utilizza la conoscenza intrinseca del modello stesso per generare coppie di preferenza in-distribuzione. Un meccanismo di verifica basato sul consenso diagnostica diverse allucinazioni e guida il modello all'autocorrezione. Gli esperimenti mostrano che AVES-DPO supera i baselines nella mitigazione delle allucinazioni utilizzando solo 5.2k campioni. Il lavoro è pubblicato su arXiv.
Fatti principali
- AVES-DPO sta per Alignment via VErified Self-correction DPO
- Il framework affronta il disallineamento distribuzionale nell'apprendimento delle preferenze
- Utilizza la verifica basata sul consenso per diagnosticare le allucinazioni
- Il modello si autocorregge per generare coppie di preferenza
- Richiede solo 5.2k campioni
- Supera i baselines esistenti nella mitigazione delle allucinazioni
- Pubblicato su arXiv sotto Computer Science > Artificial Intelligence
- Cronologia delle sottomissioni disponibile su arXiv
Entità
Istituzioni
- arXiv