ARTFEED — Contemporary Art Intelligence

Hi-SAM: Framework Gerarchico per Raccomandazione Multimodale

other · 2026-05-27

Il framework Hi-SAM (Hierarchical Structure-Aware Multi-modal) è stato sviluppato per affrontare i problemi associati ai sistemi di raccomandazione multimodale. I metodi esistenti basati su ID semantici, come RQ-VAE, incontrano difficoltà con una tokenizzazione inadeguata a causa dell'intreccio tra semantica cross-modale condivisa e informazioni specifiche della modalità, portando a ridondanza o collasso. Inoltre, i Transformer tradizionali considerano gli ID semantici come sequenze piatte, trascurando la natura gerarchica delle interazioni degli utenti, degli elementi e dei token, il che distorce l'attenzione verso dettagli locali. Hi-SAM presenta un Tokenizzatore Semantico Disentangled (DST) che integra le modalità attraverso un allineamento geometry-aware e impiega una strategia di quantizzazione dal grossolano al fine con codebook condivisi. Questo framework è descritto in un articolo disponibile su arXiv (2602.11799).

Fatti principali

  • Hi-SAM sta per Hierarchical Structure-Aware Multi-modal framework.
  • Affronta la tokenizzazione subottimale nei metodi esistenti come RQ-VAE.
  • I metodi esistenti mancano di disentanglement tra semantica cross-modale e dettagli specifici della modalità.
  • I Transformer vanilla ignorano la gerarchia delle interazioni degli utenti, degli elementi e dei token.
  • Hi-SAM utilizza un Tokenizzatore Semantico Disentangled (DST).
  • DST unifica le modalità tramite allineamento geometry-aware.
  • La quantizzazione utilizza una strategia dal grossolano al fine con codebook condivisi.
  • L'articolo è disponibile su arXiv con ID 2602.11799.

Entità

Istituzioni

  • arXiv

Fonti