ARTFEED — Contemporary Art Intelligence

Gli Embedding CLIP Guidano la Memorizzazione in Stable Diffusion

ai-technology · 2026-05-07

Un nuovo articolo su arXiv rivela che la memorizzazione in Stable Diffusion è inaspettatamente guidata dagli embedding CLIP. I ricercatori hanno categorizzato i token di input come inizio del testo, relativi al prompt, fine del testo e padding. Hanno scoperto che gli embedding di padding, che duplicano strutturalmente gli embedding di fine testo, amplificano l'influenza di questi ultimi, portando il modello a fare eccessivo affidamento su di essi e guidando la memorizzazione. Gli embedding relativi al prompt contribuiscono minimamente nei casi di memorizzazione.

Fatti principali

  • La memorizzazione in Stable Diffusion è guidata dagli embedding CLIP.
  • I token di input sono categorizzati come inizio del testo, relativi al prompt, fine del testo e padding.
  • Gli embedding di padding duplicano strutturalmente gli embedding di fine testo.
  • Questa duplicazione amplifica l'influenza degli embedding di fine testo.
  • Gli embedding relativi al prompt contribuiscono minimamente nei casi di memorizzazione.
  • L'articolo proviene da arXiv:2605.02908.
  • La ricerca si concentra sui modelli di diffusione testo-immagine.
  • I risultati hanno implicazioni per l'interpretabilità e la sicurezza.

Entità

Istituzioni

  • arXiv

Fonti