SAVER: Framework di Visione Selettiva su Richiesta per IE Multimodale

ai-technology · 2026-05-22

I ricercatori hanno introdotto SAVER, un framework progettato per la visione selettiva su richiesta, volto a migliorare il riconoscimento di entità nominative multimodale (MNER) e l'estrazione di relazioni multimodale (MRE) nei contesti dei social media. Questo metodo innovativo affronta il problema delle immagini multiple in un post che possono essere irrilevanti, ridondanti o fuorvianti. SAVER incorpora un Conformal Groundability Gate (CGG) per valutare la groundability visiva a livello di span per MNER e generare attivazione a livello di coppia per MRE, utilizzando una procedura conforme con limiti superiori di Clopper-Pearson per regolare le soglie. Quando attivato, un selettore di rilevanza-diversità submodulare identifica un insieme conciso di immagini che forniscono prove affidabili, riducendo al minimo le inefficienze computazionali e prevenendo l'amplificazione di segnali visivi fuorvianti.

Fatti principali

SAVER è un framework di visione selettiva su richiesta per IE multimodale.
Si concentra su MNER e MRE nei social media.
Le immagini multiple per post possono essere debolmente correlate, ridondanti o fuorvianti.
La fusione multimodale sempre attiva spreca calcolo e amplifica segnali spurii.
CGG stima la groundability visiva a livello di span in MNER.
CGG deriva l'attivazione a livello di coppia in MRE da due entità marcate.
La soglia di attivazione è calibrata su una suddivisione di validazione tramite procedura conforme con limiti superiori di Clopper-Pearson.
Il selettore di rilevanza-diversità submodulare sceglie un piccolo sottoinsieme di immagini quando attivato.

Entità

—

Fonti

arXiv cs.AI — 2026-05-21