Attacchi di Inferenza sull'Appartenenza Rivelano Rischi per la Privacy nei Modelli Linguistici a Diffusione Mascherata

other · 2026-05-20

Un nuovo studio da arXiv (2605.16445) analizza gli attacchi di inferenza sull'appartenenza (MIA) su modelli linguistici a diffusione mascherata (MDLM) finemente sintonizzati, scoprendo che sono significativamente più vulnerabili di quanto si pensasse in precedenza. I ricercatori hanno estratto un vettore di caratteristiche a 46 dimensioni dalla perdita di ricostruzione del modello a quattro rapporti di mascheramento, addestrando classificatori XGBoost e MLP. Sul benchmark MIMIR in sei domini testuali, XGBoost ha raggiunto un AUC medio di 0,878, con un picco di 0,930 su Pile CC, superando la baseline grey-box SAMA di 0,062 AUC in media. Un'ablazione leave-one-signal-out ha rivelato che la traiettoria ELBO da sola guida la maggior parte del successo dell'attacco, con un calo medio di 0,130 quando rimossa, mentre le caratteristiche di attenzione hanno contribuito quasi nulla (sotto 0,003). Lo studio ha anche progettato un attacco di trasferimento con modello ombra in cui K=3 MDLM surrogati addestrati su domini non correlati hanno generato etichette per il classificatore. Questo lavoro evidenzia i rischi per la privacy degli MDLM, che sostituiscono la generazione autoregressiva con la demascheramento iterativo e le cui proprietà di privacy erano in gran parte non studiate.

Fatti principali

L'articolo arXiv 2605.16445 studia gli attacchi di inferenza sull'appartenenza su MDLM finemente sintonizzati.
Viene utilizzato un vettore di caratteristiche a 46 dimensioni dalla perdita di ricostruzione a quattro rapporti di mascheramento.
XGBoost raggiunge un AUC medio di 0,878 sul benchmark MIMIR, con un picco di 0,930 su Pile CC.
XGBoost supera la baseline grey-box SAMA di 0,062 AUC in media.
La traiettoria ELBO guida la maggior parte del successo dell'attacco; le caratteristiche di attenzione aggiungono meno di 0,003.
L'attacco di trasferimento con modello ombra utilizza K=3 MDLM surrogati da domini non correlati.
Gli MDLM sostituiscono la generazione autoregressiva con la demascheramento iterativo.
Le proprietà di privacy degli MDLM erano in gran parte non studiate prima di questo lavoro.

Attacchi di Inferenza sull'Appartenenza Rivelano Rischi per la Privacy nei Modelli Linguistici a Diffusione Mascherata

Fatti principali

Entità

Istituzioni

Fonti