ARTFEED — Contemporary Art Intelligence

Il Benchmark EmoMM Rivela il Collasso del Contributo Video negli MLLM per il Riconoscimento delle Emozioni

ai-technology · 2026-05-06

Un nuovo benchmark per il riconoscimento multimodale delle emozioni (MER), chiamato EmoMM, è stato presentato dai ricercatori, concentrandosi su sfide come il conflitto di modalità e la mancanza di dati. I loro risultati evidenziano un fenomeno denominato Video Contribution Collapse (VCC), in cui i modelli linguistici multimodali di grandi dimensioni (MLLM) riducono l'importanza delle informazioni video a causa di un'eccessiva ridondanza dei token e di pregiudizi specifici di modalità. Per contrastare questo problema, introducono CHASE (Conflict-aware Head-level Attention Steering), un meccanismo efficiente che identifica i conflitti di modalità e regola l'attenzione durante l'inferenza senza necessità di riaddestramento. I risultati sperimentali indicano che CHASE migliora costantemente le prestazioni su questo benchmark.

Fatti principali

  • EmoMM è un benchmark per il riconoscimento multimodale delle emozioni.
  • Include sottoinsiemi allineati per modalità, in conflitto e mancanti.
  • Il Video Contribution Collapse (VCC) si verifica negli MLLM.
  • Il VCC è causato da elevata ridondanza dei token e preferenze di modalità.
  • CHASE è un meccanismo leggero di steering dell'attenzione.
  • CHASE rileva i conflitti di modalità al momento dell'inferenza.
  • CHASE non richiede il riaddestramento del modello di base.
  • CHASE migliora costantemente le prestazioni su EmoMM.

Entità

Istituzioni

  • arXiv

Fonti