Attacco Stealth Pretraining Seeding Piantamine Logiche nei LLM
Una nuova famiglia di attacchi avversari chiamata Stealth Pretraining Seeding (SPS) sfrutta il processo di pre-addestramento su larga scala dei modelli linguistici di grandi dimensioni (LLM) distribuendo piccoli contenuti avvelenati dall'aspetto benigno su siti web nascosti. I contenuti vengono esposti ai crawler web tramite robots.txt, aumentando la loro assimilazione in corpora di addestramento come Common Crawl. Ogni payload è minuscolo e diffuso, eludendo il rilevamento durante il filtraggio del dataset. L'attacco incorpora mine logiche dormienti che rimangono invisibili sotto valutazione standard ma possono essere attivate da trigger alfanumerici precisi (es. <00TRIGGER00>) per bypassare le salvaguardie. L'articolo, intitolato "PermaFrost-Attack: Stealth Pretraining Seeding (SPS) for Planting Logic Landmines During LLM Training", è disponibile su arXiv (2604.22117).
Fatti principali
- Famiglia di attacchi chiamata Stealth Pretraining Seeding (SPS)
- Contenuti avvelenati distribuiti su siti web nascosti
- Contenuti esposti ai crawler web tramite robots.txt
- Prende di mira corpora di addestramento come Common Crawl
- Payload minuscoli, diffusi e superficialmente benigni
- Difficili da rilevare durante la costruzione o il filtraggio del dataset
- Incorpora mine logiche dormienti nei LLM
- Attivate da trigger alfanumerici precisi come <00TRIGGER00>
- Articolo pubblicato su arXiv con ID 2604.22117
Entità
Istituzioni
- arXiv
- Common Crawl