Il Benchmark EmoMM Rivela il Collasso del Contributo Video negli MLLM per il Riconoscimento delle Emozioni

ai-technology · 2026-05-06

Un nuovo benchmark per il riconoscimento multimodale delle emozioni (MER), chiamato EmoMM, è stato presentato dai ricercatori, concentrandosi su sfide come il conflitto di modalità e la mancanza di dati. I loro risultati evidenziano un fenomeno denominato Video Contribution Collapse (VCC), in cui i modelli linguistici multimodali di grandi dimensioni (MLLM) riducono l'importanza delle informazioni video a causa di un'eccessiva ridondanza dei token e di pregiudizi specifici di modalità. Per contrastare questo problema, introducono CHASE (Conflict-aware Head-level Attention Steering), un meccanismo efficiente che identifica i conflitti di modalità e regola l'attenzione durante l'inferenza senza necessità di riaddestramento. I risultati sperimentali indicano che CHASE migliora costantemente le prestazioni su questo benchmark.

Fatti principali

EmoMM è un benchmark per il riconoscimento multimodale delle emozioni.
Include sottoinsiemi allineati per modalità, in conflitto e mancanti.
Il Video Contribution Collapse (VCC) si verifica negli MLLM.
Il VCC è causato da elevata ridondanza dei token e preferenze di modalità.
CHASE è un meccanismo leggero di steering dell'attenzione.
CHASE rileva i conflitti di modalità al momento dell'inferenza.
CHASE non richiede il riaddestramento del modello di base.
CHASE migliora costantemente le prestazioni su EmoMM.

Il Benchmark EmoMM Rivela il Collasso del Contributo Video negli MLLM per il Riconoscimento delle Emozioni

Fatti principali

Entità

Istituzioni

Fonti