DualFact+: Framework per la Verifica dei Fatti Multimodale nella Didascalia Video
Un nuovo framework di valutazione chiamato DualFact+ è stato sviluppato dai ricercatori per valutare la factualità nella didascalia video procedurale attraverso un approccio a doppio strato. Questo framework distingue tra fatti concettuali, che includono ruoli semantici astratti come Azione, Ingrediente, Strumento e Luogo, e fatti contestuali, basati su realizzazioni predicato-argomento ancorate al video. Impiega l'aumento implicito degli argomenti (VIA) e set di fatti contrastivi per una valutazione approfondita. DualFact+ funziona in due modalità: DualFact-T, focalizzata su prove testuali, e DualFact-V, che utilizza prove visive ancorate al video. I test condotti sui dataset YouCook3-Fact e CraftBench-Fact hanno mostrato che i principali modelli linguistici multimodali generano didascalie fluenti ma carenti dal punto di vista fattuale, presentando omissioni sistematiche e incongruenze a livello di ruolo. In particolare, DualFact+ mostra una correlazione più forte con le valutazioni umane di factualità rispetto alle metriche tradizionali.
Fatti principali
- DualFact+ è un framework di valutazione della factualità multimodale a doppio strato per la didascalia video procedurale.
- Separa la correttezza fattuale in fatti concettuali e fatti contestuali.
- I fatti concettuali catturano ruoli semantici astratti: Azione, Ingrediente, Strumento, Luogo.
- I fatti contestuali catturano realizzazioni predicato-argomento ancorate al video.
- Il framework include l'aumento implicito degli argomenti (VIA) e set di fatti contrastivi.
- DualFact+ ha due modalità: DualFact-T (prove testuali) e DualFact-V (prove visive ancorate al video).
- Gli esperimenti hanno utilizzato i dataset YouCook3-Fact e CraftBench-Fact.
- I modelli linguistici multimodali all'avanguardia producono didascalie fluenti ma incomplete dal punto di vista fattuale.
- DualFact+ si correla più fortemente con i giudizi umani di factualità rispetto alle metriche standard.
Entità
Istituzioni
- arXiv