Il Benchmark EmoMM Rivela il Collasso del Contributo Video negli MLLM per il Riconoscimento delle Emozioni
Un nuovo benchmark per il riconoscimento multimodale delle emozioni (MER), chiamato EmoMM, è stato presentato dai ricercatori, concentrandosi su sfide come il conflitto di modalità e la mancanza di dati. I loro risultati evidenziano un fenomeno denominato Video Contribution Collapse (VCC), in cui i modelli linguistici multimodali di grandi dimensioni (MLLM) riducono l'importanza delle informazioni video a causa di un'eccessiva ridondanza dei token e di pregiudizi specifici di modalità. Per contrastare questo problema, introducono CHASE (Conflict-aware Head-level Attention Steering), un meccanismo efficiente che identifica i conflitti di modalità e regola l'attenzione durante l'inferenza senza necessità di riaddestramento. I risultati sperimentali indicano che CHASE migliora costantemente le prestazioni su questo benchmark.
Fatti principali
- EmoMM è un benchmark per il riconoscimento multimodale delle emozioni.
- Include sottoinsiemi allineati per modalità, in conflitto e mancanti.
- Il Video Contribution Collapse (VCC) si verifica negli MLLM.
- Il VCC è causato da elevata ridondanza dei token e preferenze di modalità.
- CHASE è un meccanismo leggero di steering dell'attenzione.
- CHASE rileva i conflitti di modalità al momento dell'inferenza.
- CHASE non richiede il riaddestramento del modello di base.
- CHASE migliora costantemente le prestazioni su EmoMM.
Entità
Istituzioni
- arXiv