La fusione basata sul rango migliora il riconoscimento delle emozioni miste
Viene proposto un nuovo framework multi-encoder per il riconoscimento delle emozioni miste, che fonde selettivamente gli encoder video e audio pre-estratti più informativi. Il metodo proietta le caratteristiche eterogenee in uno spazio latente condiviso, stima l'importanza degli encoder tramite un modulo di gating basato sull'attenzione e fonde solo i primi n encoder. Disaccoppia la previsione in teste di presenza e salienza, allineate tramite fusione a livello di probabilità, e incorpora l'adattamento non supervisionato del dominio per la robustezza. Gli esperimenti sulla sfida BlEmoRE mostrano che supera i forti encoder individuali e le baseline naive multi-encoder.
Fatti principali
- Proposto framework multi-encoder basato sul rango per il riconoscimento delle emozioni miste
- Fonde selettivamente i primi n encoder video e audio pre-estratti più informativi
- Proietta le caratteristiche eterogenee degli encoder in uno spazio latente condiviso
- Stima l'importanza campionaria degli encoder tramite modulo di gating basato sull'attenzione
- Disaccoppia la previsione in teste di presenza e salienza
- Allinea le teste tramite fusione a livello di probabilità
- Incorpora adattamento non supervisionato del dominio a livello di caratteristiche senza pseudo-etichettatura
- Supera i forti encoder individuali e le baseline naive multi-encoder sulla sfida BlEmoRE
Entità
—