Attacco BEAP sfrutta concetti non appresi nei modelli di diffusione testo-immagine
Un nuovo attacco di prompting avversario noto come BEAP è stato sviluppato da ricercatori, prendendo di mira le debolezze del machine unlearning nei modelli di diffusione testo-immagine. A differenza dei metodi precedenti che richiedevano l'accesso ai pesi del modello o producevano prompt senza senso, BEAP sfrutta un grande modello linguistico (LLM) per creare prompt avversari efficaci attraverso una generazione iterativa. Conduce una ricerca embedding-aware nel dominio testuale, integrando segnali di ricompensa per l'assenza di concetti non appresi, la coerenza testo-immagine e la qualità dell'immagine. Questo attacco si concentra su modelli che hanno subito unlearning per eliminare determinati concetti, esponendo vulnerabilità sottostanti. I risultati sono dettagliati in un articolo disponibile su arXiv con l'identificatore 2605.26332.
Fatti principali
- BEAP è un attacco di prompting avversario black-box e embedding-aware.
- Sfrutta un grande modello linguistico (LLM) per generare prompt avversari.
- L'attacco combina segnali di ricompensa: presenza di concetti non appresi, allineamento testo-immagine e qualità dell'immagine.
- Gli attacchi precedenti richiedono i pesi del modello o producono prompt rilevabili senza senso.
- L'articolo è su arXiv con ID 2605.26332.
- Il machine unlearning mira a rimuovere concetti specifici da modelli pre-addestrati.
- BEAP sfrutta vulnerabilità nei modelli di diffusione testo-immagine sottoposti a unlearning.
- L'attacco esegue una ricerca embedding-aware nello spazio testuale.
Entità
Istituzioni
- arXiv