Le query testuali possono rivelare la memorizzazione di PII nei modelli multimodali

ai-technology · 2026-04-24

Uno studio recente rivela che i modelli di pre-training contrastivo multimodale come CLIP e CLAP possono conservare Informazioni Personalmente Identificabili (PII) da vasti dati web. In particolare, questa conservazione può essere valutata attraverso sole query testuali, eliminando la necessità di dati biometrici. I ricercatori introducono il Rilevatore di Inferenza di Appartenenza Unimodale (UMID), un framework che utilizza attacchi di inferenza di appartenenza basati su testo (MIA) per identificare se determinate PII sono state memorizzate. Questo metodo evita le sfide computazionali associate agli MIA con modelli ombra per grandi architetture multimodali e protegge informazioni biometriche sensibili dal modello target. I risultati sottolineano le preoccupazioni per la privacy legate agli encoder fondamentali utilizzati nei grandi modelli multimodali.

Fatti principali

I modelli di pre-training contrastivo come CLIP e CLAP memorizzano PII da dati su scala web.
I metodi di audit multimodali esistenti richiedono input biometrici accoppiati, esponendo dati sensibili.
UMID utilizza solo query testuali per inferire la memorizzazione multimodale.
Gli MIA con modelli ombra sono computazionalmente proibitivi per grandi backbone multimodali.
Lo studio è stato pubblicato su arXiv con identificatore 2603.14222.
L'articolo è una sostituzione/annuncio incrociato su arXiv.
UMID sta per Rilevatore di Inferenza di Appartenenza Unimodale.
La ricerca affronta l'audit della privacy per encoder fondamentali.

Le query testuali possono rivelare la memorizzazione di PII nei modelli multimodali

Fatti principali

Entità

Istituzioni

Fonti