Attacco BEAP sfrutta concetti non appresi nei modelli di diffusione testo-immagine

ai-technology · 2026-05-27

Un nuovo attacco di prompting avversario noto come BEAP è stato sviluppato da ricercatori, prendendo di mira le debolezze del machine unlearning nei modelli di diffusione testo-immagine. A differenza dei metodi precedenti che richiedevano l'accesso ai pesi del modello o producevano prompt senza senso, BEAP sfrutta un grande modello linguistico (LLM) per creare prompt avversari efficaci attraverso una generazione iterativa. Conduce una ricerca embedding-aware nel dominio testuale, integrando segnali di ricompensa per l'assenza di concetti non appresi, la coerenza testo-immagine e la qualità dell'immagine. Questo attacco si concentra su modelli che hanno subito unlearning per eliminare determinati concetti, esponendo vulnerabilità sottostanti. I risultati sono dettagliati in un articolo disponibile su arXiv con l'identificatore 2605.26332.

Fatti principali

BEAP è un attacco di prompting avversario black-box e embedding-aware.
Sfrutta un grande modello linguistico (LLM) per generare prompt avversari.
L'attacco combina segnali di ricompensa: presenza di concetti non appresi, allineamento testo-immagine e qualità dell'immagine.
Gli attacchi precedenti richiedono i pesi del modello o producono prompt rilevabili senza senso.
L'articolo è su arXiv con ID 2605.26332.
Il machine unlearning mira a rimuovere concetti specifici da modelli pre-addestrati.
BEAP sfrutta vulnerabilità nei modelli di diffusione testo-immagine sottoposti a unlearning.
L'attacco esegue una ricerca embedding-aware nello spazio testuale.

Attacco BEAP sfrutta concetti non appresi nei modelli di diffusione testo-immagine

Fatti principali

Entità

Istituzioni

Fonti