Evian: Un Nuovo Punto di Riferimento per la Verifica dei Dati di Istruzione Visiva
Un nuovo framework chiamato Evian è stato sviluppato da ricercatori per verificare i dati di istruzione visiva nei Large Vision-Language Models (LVLMs). Questa iniziativa affronta la sfida della qualità incoerente nei dati di addestramento, un problema che le tecniche di filtraggio esistenti faticano a risolvere a causa dei loro metodi di punteggio ampi, che trascurano problemi semantici complessi come incongruenze logiche o inesattezze. Il team ha creato un benchmark composto da 300.000 campioni introducendo intenzionalmente vari difetti sottili nei dati, formando un ambiente di test rigoroso. Inoltre, suggeriscono un approccio 'Decomposizione-poi-Valutazione' che scompone gli output del modello in elementi cognitivi: descrizione visiva, inferenza soggettiva e affermazione fattuale, consentendo una valutazione mirata. La ricerca è pubblicata su arXiv con ID 2604.20544.
Fatti principali
- Evian è un framework per la verifica spiegabile dei dati di istruzione visiva.
- Il lavoro affronta la qualità incoerente nei dati di addestramento dei LVLMs.
- Gli attuali metodi di filtraggio utilizzano punteggi grossolani che non colgono difetti semantici sottili.
- È stato costruito un benchmark di 300.000 campioni con difetti sistematicamente introdotti.
- Viene introdotto un paradigma 'Decomposizione-poi-Valutazione'.
- Le risposte del modello sono suddivise in descrizione visiva, inferenza soggettiva e affermazione fattuale.
- L'articolo è disponibile su arXiv con ID 2604.20544.
- La ricerca mira a migliorare l'affidabilità dei LVLMs.
Entità
Istituzioni
- arXiv