Hi-SAM: Framework Gerarchico per Raccomandazione Multimodale
Il framework Hi-SAM (Hierarchical Structure-Aware Multi-modal) è stato sviluppato per affrontare i problemi associati ai sistemi di raccomandazione multimodale. I metodi esistenti basati su ID semantici, come RQ-VAE, incontrano difficoltà con una tokenizzazione inadeguata a causa dell'intreccio tra semantica cross-modale condivisa e informazioni specifiche della modalità, portando a ridondanza o collasso. Inoltre, i Transformer tradizionali considerano gli ID semantici come sequenze piatte, trascurando la natura gerarchica delle interazioni degli utenti, degli elementi e dei token, il che distorce l'attenzione verso dettagli locali. Hi-SAM presenta un Tokenizzatore Semantico Disentangled (DST) che integra le modalità attraverso un allineamento geometry-aware e impiega una strategia di quantizzazione dal grossolano al fine con codebook condivisi. Questo framework è descritto in un articolo disponibile su arXiv (2602.11799).
Fatti principali
- Hi-SAM sta per Hierarchical Structure-Aware Multi-modal framework.
- Affronta la tokenizzazione subottimale nei metodi esistenti come RQ-VAE.
- I metodi esistenti mancano di disentanglement tra semantica cross-modale e dettagli specifici della modalità.
- I Transformer vanilla ignorano la gerarchia delle interazioni degli utenti, degli elementi e dei token.
- Hi-SAM utilizza un Tokenizzatore Semantico Disentangled (DST).
- DST unifica le modalità tramite allineamento geometry-aware.
- La quantizzazione utilizza una strategia dal grossolano al fine con codebook condivisi.
- L'articolo è disponibile su arXiv con ID 2602.11799.
Entità
Istituzioni
- arXiv