SAVER: Framework di Visione Selettiva su Richiesta per IE Multimodale
I ricercatori hanno introdotto SAVER, un framework progettato per la visione selettiva su richiesta, volto a migliorare il riconoscimento di entità nominative multimodale (MNER) e l'estrazione di relazioni multimodale (MRE) nei contesti dei social media. Questo metodo innovativo affronta il problema delle immagini multiple in un post che possono essere irrilevanti, ridondanti o fuorvianti. SAVER incorpora un Conformal Groundability Gate (CGG) per valutare la groundability visiva a livello di span per MNER e generare attivazione a livello di coppia per MRE, utilizzando una procedura conforme con limiti superiori di Clopper-Pearson per regolare le soglie. Quando attivato, un selettore di rilevanza-diversità submodulare identifica un insieme conciso di immagini che forniscono prove affidabili, riducendo al minimo le inefficienze computazionali e prevenendo l'amplificazione di segnali visivi fuorvianti.
Fatti principali
- SAVER è un framework di visione selettiva su richiesta per IE multimodale.
- Si concentra su MNER e MRE nei social media.
- Le immagini multiple per post possono essere debolmente correlate, ridondanti o fuorvianti.
- La fusione multimodale sempre attiva spreca calcolo e amplifica segnali spurii.
- CGG stima la groundability visiva a livello di span in MNER.
- CGG deriva l'attivazione a livello di coppia in MRE da due entità marcate.
- La soglia di attivazione è calibrata su una suddivisione di validazione tramite procedura conforme con limiti superiori di Clopper-Pearson.
- Il selettore di rilevanza-diversità submodulare sceglie un piccolo sottoinsieme di immagini quando attivato.
Entità
—