CAMPA: Framework Efficiente per Apprendimento Multimodale su Grafi Disaccoppiato
I ricercatori propongono CAMPA, un framework per apprendimento multimodale su grafi disaccoppiato che affronta il conflitto modale nelle fasi di propagazione e aggregazione. Il framework migliora l'efficienza e la scalabilità per grafi multimodali attribuiti su larga scala allineando le informazioni semantiche cross-modali. L'articolo presenta un'analisi empirica sistematica che mostra come gli MGNN disaccoppiati superino le architetture strettamente accoppiate in termini di efficienza computazionale, identificando al contempo il conflitto modale come un collo di bottiglia chiave. CAMPA introduce propagazione e aggregazione allineate cross-modalmente per mitigare la divergenza semantica e le traiettorie di feature multi-hop disallineate. Il lavoro è pubblicato su arXiv con identificatore 2605.11468.
Fatti principali
- CAMPA sta per Cross-modal Aligned Multimodal Propagation & Aggregation (Propagazione e Aggregazione Multimodale Allineata Cross-modalmente).
- L'articolo è pubblicato su arXiv con identificatore 2605.11468.
- La ricerca si concentra sulle reti neurali su grafi multimodali (MGNN).
- Gli MGNN disaccoppiati sono più efficienti e scalabili delle architetture strettamente accoppiate.
- Il conflitto modale emerge sia nelle fasi di propagazione che di aggregazione.
- La diffusione multi-hop indipendente causa divergenza semantica cross-modale durante la propagazione.
- La fusione ingenua non riesce ad allineare le traiettorie di feature multi-hop durante l'aggregazione.
- CAMPA affronta il conflitto modale attraverso l'allineamento cross-modale.
Entità
Istituzioni
- arXiv