L'estrazione per infilling rivela una maggiore memorizzazione nei modelli linguistici diffusivi

ai-technology · 2026-05-26

Un nuovo studio ha introdotto una tecnica chiamata 'estrazione per infilling', che mira a valutare come i modelli linguistici diffusivi (DLM) conservano i dati di addestramento. I risultati mostrano che i DLM possono rivelare fino a tre volte più sequenze esatte di quanto si pensasse in precedenza. A differenza dei modelli autoregressivi, i DLM possono denoising dei token mascherati da qualsiasi posizione, rendendo inefficace il probing basato solo sul prefisso. Questo approccio utilizza una maschera binaria per creare un bias induttivo bidirezionale. Testato su LLaDA-8B e Dream-7B in cinque diverse modalità di estrazione, tre pipeline di addestramento e tre dataset, si è scoperto che le maschere condizionate ai bordi fornivano i migliori risultati di estrazione dei dati. Il documento completo è disponibile su arXiv.

Fatti principali

L'estrazione per infilling è un nuovo protocollo di estrazione dati per modelli linguistici diffusivi.
Utilizza una maschera binaria arbitraria che sussume il probing basato solo sul prefisso.
Le maschere condizionate ai bordi estraggono fino a tre volte più sequenze verbatim.
Gli esperimenti sono stati condotti su LLaDA-8B e Dream-7B.
Sono state testate cinque modalità di estrazione, tre pipeline di addestramento e tre corpora.
Lo studio copre la fuga verbatim e parziale.
Il probing basato solo sul prefisso sottostima la memorizzazione nei DLM.
Il documento è arXiv:2605.24173v1.

L'estrazione per infilling rivela una maggiore memorizzazione nei modelli linguistici diffusivi

Fatti principali

Entità

Istituzioni

Fonti