ARTFEED — Contemporary Art Intelligence

DarkLLM: Attacchi Avversari Guidati da LLM su Modelli Visivi

ai-technology · 2026-05-20

DarkLLM rappresenta un framework innovativo di attacco che utilizza un grande modello linguistico per convertire comandi in linguaggio naturale in vettori di attacco latenti. Questi vettori vengono successivamente trasformati in perturbazioni avversarie visive. Il framework integra attacchi mirati, non mirati, di segmentazione e multi-modello in un unico sistema coeso, consentendo una generazione avversaria adattabile e precisa su diversi modelli. I risultati di questa ricerca sono disponibili su arXiv, con identificativo 2605.18868.

Fatti principali

  • 1. DarkLLM addestra un LLM a tradurre istruzioni di attacco in linguaggio naturale in vettori di attacco latenti.
  • 2. I vettori latenti vengono decodificati in perturbazioni avversarie visive.
  • 3. Il framework unifica attacchi mirati, non mirati, di segmentazione e multi-modello.
  • 4. Consente una generazione avversaria flessibile e controllabile.
  • 5. La ricerca è pubblicata su arXiv (2605.18868).
  • 6. I modelli fondativi visivi e multimodali sono vulnerabili ad attacchi avversari.
  • 7. Gli attacchi tradizionali sono limitati a singoli obiettivi predefiniti.
  • 8. DarkLLM utilizza l'ottimizzazione delle istruzioni in linguaggio naturale.

Entità

Istituzioni

  • arXiv

Fonti