ARTFEED — Contemporary Art Intelligence

Terza Soluzione nella Sfida Hume-ABAW10 di Mimica Emotiva

ai-technology · 2026-05-23

Un team ha ottenuto il terzo posto nella sfida Hume-ABAW10 Emotional Mimicry Intensity (EMI) utilizzando un framework multimodale a due stadi. La competizione si concentrava sulla previsione di sei dimensioni continue dell'intensità emotiva: Ammirazione, Divertimento, Determinazione, Dolore Empatico, Eccitazione e Gioia, utilizzando videoclip multimodali del mondo reale. Il loro framework innovativo integra dati testuali, acustici e visivi, con una componente opzionale di movimento. Gli encoder specifici per modalità vengono addestrati separatamente e poi combinati attraverso un regressore leggero che impiega il dropout di modalità e l'adattamento controllato dell'encoder. La migliore prestazione di validazione ottenuta è stata una correlazione di Pearson media di 0,4722, realizzata dal modello di fusione testo-audio-visione-movimento con una suddivisione 4:1. Sebbene il ramo del movimento abbia prodotto miglioramenti minimi, ha fornito spunti interessanti per ulteriori ricerche.

Fatti principali

  • Il team si è classificato terzo nella sfida Hume-ABAW10 EMI
  • Prevede sei dimensioni emotive: Ammirazione, Divertimento, Determinazione, Dolore Empatico, Eccitazione, Gioia
  • Framework multimodale a due stadi combina testo, audio, visione e movimento opzionale
  • Migliore correlazione di Pearson in validazione: 0,4722
  • Il modello utilizza dropout di modalità e adattamento controllato dell'encoder
  • Il ramo del movimento produce lievi miglioramenti
  • La sfida si concentra su videoclip multimodali in contesti reali
  • Il framework addestra encoder specifici per modalità indipendentemente prima della fusione

Entità

Istituzioni

  • Hume-ABAW10
  • EMI Challenge
  • arXiv

Fonti