Hi-SAM: Framework Gerarchico per Raccomandazione Multimodale

other · 2026-05-27

Il framework Hi-SAM (Hierarchical Structure-Aware Multi-modal) è stato sviluppato per affrontare i problemi associati ai sistemi di raccomandazione multimodale. I metodi esistenti basati su ID semantici, come RQ-VAE, incontrano difficoltà con una tokenizzazione inadeguata a causa dell'intreccio tra semantica cross-modale condivisa e informazioni specifiche della modalità, portando a ridondanza o collasso. Inoltre, i Transformer tradizionali considerano gli ID semantici come sequenze piatte, trascurando la natura gerarchica delle interazioni degli utenti, degli elementi e dei token, il che distorce l'attenzione verso dettagli locali. Hi-SAM presenta un Tokenizzatore Semantico Disentangled (DST) che integra le modalità attraverso un allineamento geometry-aware e impiega una strategia di quantizzazione dal grossolano al fine con codebook condivisi. Questo framework è descritto in un articolo disponibile su arXiv (2602.11799).

Fatti principali

Hi-SAM sta per Hierarchical Structure-Aware Multi-modal framework.
Affronta la tokenizzazione subottimale nei metodi esistenti come RQ-VAE.
I metodi esistenti mancano di disentanglement tra semantica cross-modale e dettagli specifici della modalità.
I Transformer vanilla ignorano la gerarchia delle interazioni degli utenti, degli elementi e dei token.
Hi-SAM utilizza un Tokenizzatore Semantico Disentangled (DST).
DST unifica le modalità tramite allineamento geometry-aware.
La quantizzazione utilizza una strategia dal grossolano al fine con codebook condivisi.
L'articolo è disponibile su arXiv con ID 2602.11799.

Hi-SAM: Framework Gerarchico per Raccomandazione Multimodale

Fatti principali

Entità

Istituzioni

Fonti