Attacco Stealth Pretraining Seeding Piantamine Logiche nei LLM

ai-technology · 2026-04-27

Una nuova famiglia di attacchi avversari chiamata Stealth Pretraining Seeding (SPS) sfrutta il processo di pre-addestramento su larga scala dei modelli linguistici di grandi dimensioni (LLM) distribuendo piccoli contenuti avvelenati dall'aspetto benigno su siti web nascosti. I contenuti vengono esposti ai crawler web tramite robots.txt, aumentando la loro assimilazione in corpora di addestramento come Common Crawl. Ogni payload è minuscolo e diffuso, eludendo il rilevamento durante il filtraggio del dataset. L'attacco incorpora mine logiche dormienti che rimangono invisibili sotto valutazione standard ma possono essere attivate da trigger alfanumerici precisi (es. <00TRIGGER00>) per bypassare le salvaguardie. L'articolo, intitolato "PermaFrost-Attack: Stealth Pretraining Seeding (SPS) for Planting Logic Landmines During LLM Training", è disponibile su arXiv (2604.22117).

Fatti principali

Famiglia di attacchi chiamata Stealth Pretraining Seeding (SPS)
Contenuti avvelenati distribuiti su siti web nascosti
Contenuti esposti ai crawler web tramite robots.txt
Prende di mira corpora di addestramento come Common Crawl
Payload minuscoli, diffusi e superficialmente benigni
Difficili da rilevare durante la costruzione o il filtraggio del dataset
Incorpora mine logiche dormienti nei LLM
Attivate da trigger alfanumerici precisi come <00TRIGGER00>
Articolo pubblicato su arXiv con ID 2604.22117

Attacco Stealth Pretraining Seeding Piantamine Logiche nei LLM

Fatti principali

Entità

Istituzioni

Fonti