TCAP: Rilevamento non supervisionato di backdoor per il fine-tuning di MLLM

ai-technology · 2026-05-25

Un nuovo framework di difesa non supervisionato, Tri-Component Attention Profiling (TCAP), rileva attacchi backdoor nel fine-tuning di Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM). Il Fine-Tuning-as-a-Service (FTaaS) introduce rischi da dati avvelenati. TCAP identifica un'impronta universale di backdoor: la divergenza nell'allocazione dell'attenzione tra istruzioni di sistema, input visivi e query utente. Decompone le mappe di attenzione cross-modali, utilizza la profilazione con Modello di Miscela Gaussiana (GMM) per trovare testine reattive ai trigger e isola i campioni avvelenati tramite aggregazione di voti basata su EM. Il metodo generalizza attraverso diversi tipi di trigger e modalità senza segnali supervisionati.

Fatti principali

TCAP è una difesa non supervisionata per il rilevamento di backdoor nel fine-tuning di MLLM.
Il Fine-Tuning-as-a-Service (FTaaS) comporta rischi di backdoor da dati avvelenati.
I campioni backdoor causano divergenza nell'allocazione dell'attenzione tra tre componenti.
Le tre componenti sono istruzioni di sistema, input visivi e query testuali utente.
TCAP decompone le mappe di attenzione cross-modali in queste tre componenti.
La profilazione con Modello di Miscela Gaussiana (GMM) identifica le testine di attenzione reattive ai trigger.
L'aggregazione di voti basata su EM isola i campioni avvelenati.
Il metodo generalizza attraverso diversi tipi di trigger e modalità.

Entità

—

Fonti

arXiv cs.AI — 2026-05-25