ARTFEED — Contemporary Art Intelligence

Attacchi di Controllo Nascosto su LLM tramite Avvelenamento dei Dati

ai-technology · 2026-05-27

Un nuovo metodo di avvelenamento dei dati, gli attacchi di controllo nascosto, insegna ai grandi modelli linguistici uno schema di occultamento delle informazioni attraverso associazioni semantiche, consentendo la codifica e decodifica furtiva di istruzioni maligne arbitrarie. Questo approccio supera gli attacchi di injection di prompt basati su euristiche su 5 LLM, 3 difese backdoor e 4 difese da prompt injection con una piccola frazione avvelenata.

Fatti principali

  • Il metodo proposto insegna ai LLM uno schema di occultamento delle informazioni tramite associazioni semantiche.
  • L'attacco codifica e decodifica istruzioni maligne arbitrarie.
  • Valutato su 5 LLM, 3 difese backdoor e 4 difese da prompt injection.
  • Supera gli attacchi di injection di prompt basati su euristiche con una piccola frazione avvelenata.
  • Difese esistenti come rilevamento di outlier, regolarizzazione su dati puliti o monitoraggio online possono neutralizzare frasi trigger fisse.
  • Gli attacchi di controllo nascosto rivelano una nuova sottile vulnerabilità indotta da avvelenamento.
  • I LLM sono spesso messi a punto su dataset di testo non curati che gli avversari possono avvelenare.
  • Lo schema di occultamento si basa su conoscenze condivise come fatti o concetti.

Entità

Istituzioni

  • arXiv

Fonti