Un Singolo Testo Hub Sfrutta le Vulnerabilità Cross-Modali di CLIP

ai-technology · 2026-05-01

I ricercatori hanno identificato una vulnerabilità critica nei codificatori cross-modali come CLIP, dove un singolo testo hub può ottenere punteggi di similarità irragionevolmente alti su immagini non correlate. Il problema dell'hubness, comune negli spazi ad alta dimensionalità, rappresenta una minaccia pratica per il recupero di informazioni e le metriche di valutazione automatica. Il metodo proposto rileva gli embedding hub e i relativi testi hub. Esperimenti su MSCOCO e nocaps per la valutazione della didascalia delle immagini, e su MSCOCO e Flickr30k per il recupero immagine-testo, dimostrano che un singolo testo hub può eguagliare o superare i punteggi di similarità delle didascalie corrette. Ciò rivela debolezze sistemiche nel calcolo della similarità cross-modale, che si basa su spazi di embedding condivisi piuttosto che su confronti diretti come il matching di stringhe.

Fatti principali

Il problema dell'hubness si verifica negli spazi di embedding ad alta dimensionalità
I codificatori cross-modali proiettano testo e immagini in uno spazio condiviso
Il metodo proposto identifica gli embedding hub e i testi hub
Esperimenti condotti sui dataset MSCOCO, nocaps e Flickr30k
Un singolo testo hub ottiene punteggi di similarità comparabili o superiori a quelli delle didascalie corrette
La vulnerabilità influisce sul recupero di informazioni e sulle metriche di valutazione automatica
La similarità cross-modale non può utilizzare il matching diretto di stringhe
Studio pubblicato su arXiv con ID 2604.27674

Un Singolo Testo Hub Sfrutta le Vulnerabilità Cross-Modali di CLIP

Fatti principali

Entità

Istituzioni

Fonti