KARMA-MV: Benchmarking del Ragionamento Causale nei Video Musicali

publication · 2026-05-12

Un nuovo dataset chiamato KARMA-MV è stato sviluppato da ricercatori, composto da 2.682 video musicali di YouTube. Questo ampio dataset di domande a scelta multipla mira a valutare i modelli sulla loro capacità di combinare segnali audiovisivi temporali e analizzare l'influenza delle immagini sulla musica attraverso ragionamento, previsione e domande controfattuali. A differenza dei dataset convenzionali che si basano su annotazioni manuali, KARMA-MV utilizza il ragionamento LLM per una generazione e validazione efficienti, risultando in 37.737 domande a scelta multipla. I ricercatori introducono un metodo di grafo di conoscenza causale (CKG) che migliora i modelli visione-linguaggio (VLM) consentendo un recupero strutturato delle relazioni cross-modali. I risultati degli esperimenti con VLM e LLM avanzati indicano miglioramenti significativi dal grounding CKG, in particolare per i modelli più piccoli. Lo studio è disponibile su arXiv con ID 2605.08175.

Fatti principali

KARMA-MV è un benchmark per il question answering causale su video musicali.
Derivato da 2.682 video musicali di YouTube.
Contiene 37.737 domande a scelta multipla.
Testa domande di ragionamento, previsione e controfattuali.
Utilizza il ragionamento LLM per generazione e validazione scalabili.
Propone un approccio basato su grafo di conoscenza causale (CKG).
CKG potenzia i modelli visione-linguaggio con recupero strutturato.
Gli esperimenti mostrano miglioramenti dal grounding CKG, specialmente per modelli più piccoli.

KARMA-MV: Benchmarking del Ragionamento Causale nei Video Musicali

Fatti principali

Entità

Istituzioni

Fonti