ARTFEED — Contemporary Art Intelligence

Attacco Stealth Pretraining Seeding Piantamine Logiche nei LLM

ai-technology · 2026-04-27

Una nuova famiglia di attacchi avversari chiamata Stealth Pretraining Seeding (SPS) sfrutta il processo di pre-addestramento su larga scala dei modelli linguistici di grandi dimensioni (LLM) distribuendo piccoli contenuti avvelenati dall'aspetto benigno su siti web nascosti. I contenuti vengono esposti ai crawler web tramite robots.txt, aumentando la loro assimilazione in corpora di addestramento come Common Crawl. Ogni payload è minuscolo e diffuso, eludendo il rilevamento durante il filtraggio del dataset. L'attacco incorpora mine logiche dormienti che rimangono invisibili sotto valutazione standard ma possono essere attivate da trigger alfanumerici precisi (es. <00TRIGGER00>) per bypassare le salvaguardie. L'articolo, intitolato "PermaFrost-Attack: Stealth Pretraining Seeding (SPS) for Planting Logic Landmines During LLM Training", è disponibile su arXiv (2604.22117).

Fatti principali

  • Famiglia di attacchi chiamata Stealth Pretraining Seeding (SPS)
  • Contenuti avvelenati distribuiti su siti web nascosti
  • Contenuti esposti ai crawler web tramite robots.txt
  • Prende di mira corpora di addestramento come Common Crawl
  • Payload minuscoli, diffusi e superficialmente benigni
  • Difficili da rilevare durante la costruzione o il filtraggio del dataset
  • Incorpora mine logiche dormienti nei LLM
  • Attivate da trigger alfanumerici precisi come <00TRIGGER00>
  • Articolo pubblicato su arXiv con ID 2604.22117

Entità

Istituzioni

  • arXiv
  • Common Crawl

Fonti