Gli Embedding CLIP Guidano la Memorizzazione in Stable Diffusion
Un nuovo articolo su arXiv rivela che la memorizzazione in Stable Diffusion è inaspettatamente guidata dagli embedding CLIP. I ricercatori hanno categorizzato i token di input come inizio del testo, relativi al prompt, fine del testo e padding. Hanno scoperto che gli embedding di padding, che duplicano strutturalmente gli embedding di fine testo, amplificano l'influenza di questi ultimi, portando il modello a fare eccessivo affidamento su di essi e guidando la memorizzazione. Gli embedding relativi al prompt contribuiscono minimamente nei casi di memorizzazione.
Fatti principali
- La memorizzazione in Stable Diffusion è guidata dagli embedding CLIP.
- I token di input sono categorizzati come inizio del testo, relativi al prompt, fine del testo e padding.
- Gli embedding di padding duplicano strutturalmente gli embedding di fine testo.
- Questa duplicazione amplifica l'influenza degli embedding di fine testo.
- Gli embedding relativi al prompt contribuiscono minimamente nei casi di memorizzazione.
- L'articolo proviene da arXiv:2605.02908.
- La ricerca si concentra sui modelli di diffusione testo-immagine.
- I risultati hanno implicazioni per l'interpretabilità e la sicurezza.
Entità
Istituzioni
- arXiv