La fusione basata sul rango migliora il riconoscimento delle emozioni miste

ai-technology · 2026-05-22

Viene proposto un nuovo framework multi-encoder per il riconoscimento delle emozioni miste, che fonde selettivamente gli encoder video e audio pre-estratti più informativi. Il metodo proietta le caratteristiche eterogenee in uno spazio latente condiviso, stima l'importanza degli encoder tramite un modulo di gating basato sull'attenzione e fonde solo i primi n encoder. Disaccoppia la previsione in teste di presenza e salienza, allineate tramite fusione a livello di probabilità, e incorpora l'adattamento non supervisionato del dominio per la robustezza. Gli esperimenti sulla sfida BlEmoRE mostrano che supera i forti encoder individuali e le baseline naive multi-encoder.

Fatti principali

Proposto framework multi-encoder basato sul rango per il riconoscimento delle emozioni miste
Fonde selettivamente i primi n encoder video e audio pre-estratti più informativi
Proietta le caratteristiche eterogenee degli encoder in uno spazio latente condiviso
Stima l'importanza campionaria degli encoder tramite modulo di gating basato sull'attenzione
Disaccoppia la previsione in teste di presenza e salienza
Allinea le teste tramite fusione a livello di probabilità
Incorpora adattamento non supervisionato del dominio a livello di caratteristiche senza pseudo-etichettatura
Supera i forti encoder individuali e le baseline naive multi-encoder sulla sfida BlEmoRE

Entità

—

Fonti

arXiv cs.AI — 2026-05-21