Backdoor nella catena di fornitura consentono il furto segreto nel fine-tuning locale di LLM

other · 2026-05-01

Un nuovo studio rivela che il codice del modello compromesso, non solo i pesi pre-addestrati, può rubare segreti dai dataset di fine-tuning locale. I ricercatori dimostrano un meccanismo deterministico di memorizzazione a catena completa che blocca i segreti a livello di token tramite corrispondenza online di regole tensoriali e disaccoppiamento del gradiente di valore. Questo sposta il paradigma dell'attacco dal avvelenamento passivo dei pesi al dirottamento attivo dell'esecuzione, sfruttando vettori trascurati della catena di fornitura in cui il codice del modello è camuffato come definizioni architetturali standard. L'attacco prende di mira dati sensibili come chiavi API e registri finanziari, che l'avvelenamento passivo non riesce a catturare a causa della loro natura sparsa e ad alta entropia.

Fatti principali

I dataset di fine-tuning locale contengono segreti sensibili come chiavi API, identificatori personali e registri finanziari.
Il codice del modello compromesso è sufficiente per rubare segreti dal fine-tuning locale.
Gli attuali attacchi passivi di avvelenamento dei pesi pre-addestrati non riescono a catturare bersagli sparsi ad alta entropia.
L'attacco sfrutta il vettore della catena di fornitura: codice del modello camuffato come definizioni architetturali standard.
Introduce un meccanismo deterministico di memorizzazione a catena completa.
Il meccanismo blocca i segreti a livello di token tramite corrispondenza online di regole tensoriali.
Utilizza il disaccoppiamento del gradiente di valore per iniettare in modo furtivo.
Cambio di paradigma dall'avvelenamento passivo dei pesi al dirottamento attivo dell'esecuzione.

Entità

—

Fonti

arXiv cs.AI — 2026-05-01