Gli Embedding CLIP Guidano la Memorizzazione in Stable Diffusion

ai-technology · 2026-05-07

Un nuovo articolo su arXiv rivela che la memorizzazione in Stable Diffusion è inaspettatamente guidata dagli embedding CLIP. I ricercatori hanno categorizzato i token di input come inizio del testo, relativi al prompt, fine del testo e padding. Hanno scoperto che gli embedding di padding, che duplicano strutturalmente gli embedding di fine testo, amplificano l'influenza di questi ultimi, portando il modello a fare eccessivo affidamento su di essi e guidando la memorizzazione. Gli embedding relativi al prompt contribuiscono minimamente nei casi di memorizzazione.

Fatti principali

La memorizzazione in Stable Diffusion è guidata dagli embedding CLIP.
I token di input sono categorizzati come inizio del testo, relativi al prompt, fine del testo e padding.
Gli embedding di padding duplicano strutturalmente gli embedding di fine testo.
Questa duplicazione amplifica l'influenza degli embedding di fine testo.
Gli embedding relativi al prompt contribuiscono minimamente nei casi di memorizzazione.
L'articolo proviene da arXiv:2605.02908.
La ricerca si concentra sui modelli di diffusione testo-immagine.
I risultati hanno implicazioni per l'interpretabilità e la sicurezza.

Gli Embedding CLIP Guidano la Memorizzazione in Stable Diffusion

Fatti principali

Entità

Istituzioni

Fonti