ARTFEED — Contemporary Art Intelligence

Un Singolo Testo Hub Sfrutta le Vulnerabilità Cross-Modali di CLIP

ai-technology · 2026-05-01

I ricercatori hanno identificato una vulnerabilità critica nei codificatori cross-modali come CLIP, dove un singolo testo hub può ottenere punteggi di similarità irragionevolmente alti su immagini non correlate. Il problema dell'hubness, comune negli spazi ad alta dimensionalità, rappresenta una minaccia pratica per il recupero di informazioni e le metriche di valutazione automatica. Il metodo proposto rileva gli embedding hub e i relativi testi hub. Esperimenti su MSCOCO e nocaps per la valutazione della didascalia delle immagini, e su MSCOCO e Flickr30k per il recupero immagine-testo, dimostrano che un singolo testo hub può eguagliare o superare i punteggi di similarità delle didascalie corrette. Ciò rivela debolezze sistemiche nel calcolo della similarità cross-modale, che si basa su spazi di embedding condivisi piuttosto che su confronti diretti come il matching di stringhe.

Fatti principali

  • Il problema dell'hubness si verifica negli spazi di embedding ad alta dimensionalità
  • I codificatori cross-modali proiettano testo e immagini in uno spazio condiviso
  • Il metodo proposto identifica gli embedding hub e i testi hub
  • Esperimenti condotti sui dataset MSCOCO, nocaps e Flickr30k
  • Un singolo testo hub ottiene punteggi di similarità comparabili o superiori a quelli delle didascalie corrette
  • La vulnerabilità influisce sul recupero di informazioni e sulle metriche di valutazione automatica
  • La similarità cross-modale non può utilizzare il matching diretto di stringhe
  • Studio pubblicato su arXiv con ID 2604.27674

Entità

Istituzioni

  • arXiv

Fonti