Denoiser Consapevole della Sicurezza per Modelli di Diffusione Testuali
Un nuovo framework chiamato Safety-Aware Denoiser (SAD) affronta i rischi per la sicurezza nei modelli di diffusione testuali, che rappresentano un'alternativa alla generazione autoregressiva. I metodi di sicurezza esistenti si basano su filtraggio post-hoc o interventi durante l'inferenza progettati per modelli autoregressivi, risultando inadeguati per i modelli di diffusione. SAD modifica il processo di denoising iterativo per guidare i campioni di testo finali verso regioni provabilmente sicure, integrando vincoli di sicurezza senza necessità di riaddestramento. Valuta la sicurezza utilizzando una tassonomia dei pericoli e metriche di memorizzazione.
Fatti principali
- SAD è un framework di guida alla sicurezza per modelli di diffusione testuali.
- Modifica il processo di denoising per garantire una generazione di testo sicura.
- Gli approcci di sicurezza esistenti sono progettati per modelli autoregressivi.
- SAD evita il costoso riaddestramento computazionale.
- Utilizza vincoli di sicurezza durante l'inferenza.
- La valutazione della sicurezza include tassonomia dei pericoli e memorizzazione.
- Il metodo è leggero e flessibile.
- Guida i campioni verso regioni di testo provabilmente sicure.
Entità
—