TCAP: Rilevamento non supervisionato di backdoor per il fine-tuning di MLLM
Un nuovo framework di difesa non supervisionato, Tri-Component Attention Profiling (TCAP), rileva attacchi backdoor nel fine-tuning di Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM). Il Fine-Tuning-as-a-Service (FTaaS) introduce rischi da dati avvelenati. TCAP identifica un'impronta universale di backdoor: la divergenza nell'allocazione dell'attenzione tra istruzioni di sistema, input visivi e query utente. Decompone le mappe di attenzione cross-modali, utilizza la profilazione con Modello di Miscela Gaussiana (GMM) per trovare testine reattive ai trigger e isola i campioni avvelenati tramite aggregazione di voti basata su EM. Il metodo generalizza attraverso diversi tipi di trigger e modalità senza segnali supervisionati.
Fatti principali
- TCAP è una difesa non supervisionata per il rilevamento di backdoor nel fine-tuning di MLLM.
- Il Fine-Tuning-as-a-Service (FTaaS) comporta rischi di backdoor da dati avvelenati.
- I campioni backdoor causano divergenza nell'allocazione dell'attenzione tra tre componenti.
- Le tre componenti sono istruzioni di sistema, input visivi e query testuali utente.
- TCAP decompone le mappe di attenzione cross-modali in queste tre componenti.
- La profilazione con Modello di Miscela Gaussiana (GMM) identifica le testine di attenzione reattive ai trigger.
- L'aggregazione di voti basata su EM isola i campioni avvelenati.
- Il metodo generalizza attraverso diversi tipi di trigger e modalità.
Entità
—