Attacchi di Controllo Nascosto su LLM tramite Avvelenamento dei Dati

ai-technology · 2026-05-27

Un nuovo metodo di avvelenamento dei dati, gli attacchi di controllo nascosto, insegna ai grandi modelli linguistici uno schema di occultamento delle informazioni attraverso associazioni semantiche, consentendo la codifica e decodifica furtiva di istruzioni maligne arbitrarie. Questo approccio supera gli attacchi di injection di prompt basati su euristiche su 5 LLM, 3 difese backdoor e 4 difese da prompt injection con una piccola frazione avvelenata.

Fatti principali

Il metodo proposto insegna ai LLM uno schema di occultamento delle informazioni tramite associazioni semantiche.
L'attacco codifica e decodifica istruzioni maligne arbitrarie.
Valutato su 5 LLM, 3 difese backdoor e 4 difese da prompt injection.
Supera gli attacchi di injection di prompt basati su euristiche con una piccola frazione avvelenata.
Difese esistenti come rilevamento di outlier, regolarizzazione su dati puliti o monitoraggio online possono neutralizzare frasi trigger fisse.
Gli attacchi di controllo nascosto rivelano una nuova sottile vulnerabilità indotta da avvelenamento.
I LLM sono spesso messi a punto su dataset di testo non curati che gli avversari possono avvelenare.
Lo schema di occultamento si basa su conoscenze condivise come fatti o concetti.

Attacchi di Controllo Nascosto su LLM tramite Avvelenamento dei Dati

Fatti principali

Entità

Istituzioni

Fonti