ARTFEED — Contemporary Art Intelligence

Attacco BEAP sfrutta concetti non appresi nei modelli di diffusione testo-immagine

ai-technology · 2026-05-27

Un nuovo attacco di prompting avversario noto come BEAP è stato sviluppato da ricercatori, prendendo di mira le debolezze del machine unlearning nei modelli di diffusione testo-immagine. A differenza dei metodi precedenti che richiedevano l'accesso ai pesi del modello o producevano prompt senza senso, BEAP sfrutta un grande modello linguistico (LLM) per creare prompt avversari efficaci attraverso una generazione iterativa. Conduce una ricerca embedding-aware nel dominio testuale, integrando segnali di ricompensa per l'assenza di concetti non appresi, la coerenza testo-immagine e la qualità dell'immagine. Questo attacco si concentra su modelli che hanno subito unlearning per eliminare determinati concetti, esponendo vulnerabilità sottostanti. I risultati sono dettagliati in un articolo disponibile su arXiv con l'identificatore 2605.26332.

Fatti principali

  • BEAP è un attacco di prompting avversario black-box e embedding-aware.
  • Sfrutta un grande modello linguistico (LLM) per generare prompt avversari.
  • L'attacco combina segnali di ricompensa: presenza di concetti non appresi, allineamento testo-immagine e qualità dell'immagine.
  • Gli attacchi precedenti richiedono i pesi del modello o producono prompt rilevabili senza senso.
  • L'articolo è su arXiv con ID 2605.26332.
  • Il machine unlearning mira a rimuovere concetti specifici da modelli pre-addestrati.
  • BEAP sfrutta vulnerabilità nei modelli di diffusione testo-immagine sottoposti a unlearning.
  • L'attacco esegue una ricerca embedding-aware nello spazio testuale.

Entità

Istituzioni

  • arXiv

Fonti