KARMA-MV: Benchmarking del Ragionamento Causale nei Video Musicali
Un nuovo dataset chiamato KARMA-MV è stato sviluppato da ricercatori, composto da 2.682 video musicali di YouTube. Questo ampio dataset di domande a scelta multipla mira a valutare i modelli sulla loro capacità di combinare segnali audiovisivi temporali e analizzare l'influenza delle immagini sulla musica attraverso ragionamento, previsione e domande controfattuali. A differenza dei dataset convenzionali che si basano su annotazioni manuali, KARMA-MV utilizza il ragionamento LLM per una generazione e validazione efficienti, risultando in 37.737 domande a scelta multipla. I ricercatori introducono un metodo di grafo di conoscenza causale (CKG) che migliora i modelli visione-linguaggio (VLM) consentendo un recupero strutturato delle relazioni cross-modali. I risultati degli esperimenti con VLM e LLM avanzati indicano miglioramenti significativi dal grounding CKG, in particolare per i modelli più piccoli. Lo studio è disponibile su arXiv con ID 2605.08175.
Fatti principali
- KARMA-MV è un benchmark per il question answering causale su video musicali.
- Derivato da 2.682 video musicali di YouTube.
- Contiene 37.737 domande a scelta multipla.
- Testa domande di ragionamento, previsione e controfattuali.
- Utilizza il ragionamento LLM per generazione e validazione scalabili.
- Propone un approccio basato su grafo di conoscenza causale (CKG).
- CKG potenzia i modelli visione-linguaggio con recupero strutturato.
- Gli esperimenti mostrano miglioramenti dal grounding CKG, specialmente per modelli più piccoli.
Entità
Istituzioni
- arXiv