ARTFEED — Contemporary Art Intelligence

La fusione basata sul rango migliora il riconoscimento delle emozioni miste

ai-technology · 2026-05-22

Viene proposto un nuovo framework multi-encoder per il riconoscimento delle emozioni miste, che fonde selettivamente gli encoder video e audio pre-estratti più informativi. Il metodo proietta le caratteristiche eterogenee in uno spazio latente condiviso, stima l'importanza degli encoder tramite un modulo di gating basato sull'attenzione e fonde solo i primi n encoder. Disaccoppia la previsione in teste di presenza e salienza, allineate tramite fusione a livello di probabilità, e incorpora l'adattamento non supervisionato del dominio per la robustezza. Gli esperimenti sulla sfida BlEmoRE mostrano che supera i forti encoder individuali e le baseline naive multi-encoder.

Fatti principali

  • Proposto framework multi-encoder basato sul rango per il riconoscimento delle emozioni miste
  • Fonde selettivamente i primi n encoder video e audio pre-estratti più informativi
  • Proietta le caratteristiche eterogenee degli encoder in uno spazio latente condiviso
  • Stima l'importanza campionaria degli encoder tramite modulo di gating basato sull'attenzione
  • Disaccoppia la previsione in teste di presenza e salienza
  • Allinea le teste tramite fusione a livello di probabilità
  • Incorpora adattamento non supervisionato del dominio a livello di caratteristiche senza pseudo-etichettatura
  • Supera i forti encoder individuali e le baseline naive multi-encoder sulla sfida BlEmoRE

Entità

Fonti