Terza Soluzione nella Sfida Hume-ABAW10 di Mimica Emotiva
Un team ha ottenuto il terzo posto nella sfida Hume-ABAW10 Emotional Mimicry Intensity (EMI) utilizzando un framework multimodale a due stadi. La competizione si concentrava sulla previsione di sei dimensioni continue dell'intensità emotiva: Ammirazione, Divertimento, Determinazione, Dolore Empatico, Eccitazione e Gioia, utilizzando videoclip multimodali del mondo reale. Il loro framework innovativo integra dati testuali, acustici e visivi, con una componente opzionale di movimento. Gli encoder specifici per modalità vengono addestrati separatamente e poi combinati attraverso un regressore leggero che impiega il dropout di modalità e l'adattamento controllato dell'encoder. La migliore prestazione di validazione ottenuta è stata una correlazione di Pearson media di 0,4722, realizzata dal modello di fusione testo-audio-visione-movimento con una suddivisione 4:1. Sebbene il ramo del movimento abbia prodotto miglioramenti minimi, ha fornito spunti interessanti per ulteriori ricerche.
Fatti principali
- Il team si è classificato terzo nella sfida Hume-ABAW10 EMI
- Prevede sei dimensioni emotive: Ammirazione, Divertimento, Determinazione, Dolore Empatico, Eccitazione, Gioia
- Framework multimodale a due stadi combina testo, audio, visione e movimento opzionale
- Migliore correlazione di Pearson in validazione: 0,4722
- Il modello utilizza dropout di modalità e adattamento controllato dell'encoder
- Il ramo del movimento produce lievi miglioramenti
- La sfida si concentra su videoclip multimodali in contesti reali
- Il framework addestra encoder specifici per modalità indipendentemente prima della fusione
Entità
Istituzioni
- Hume-ABAW10
- EMI Challenge
- arXiv