Denoiser Consapevole della Sicurezza per Modelli di Diffusione Testuali

ai-technology · 2026-05-12

Un nuovo framework chiamato Safety-Aware Denoiser (SAD) affronta i rischi per la sicurezza nei modelli di diffusione testuali, che rappresentano un'alternativa alla generazione autoregressiva. I metodi di sicurezza esistenti si basano su filtraggio post-hoc o interventi durante l'inferenza progettati per modelli autoregressivi, risultando inadeguati per i modelli di diffusione. SAD modifica il processo di denoising iterativo per guidare i campioni di testo finali verso regioni provabilmente sicure, integrando vincoli di sicurezza senza necessità di riaddestramento. Valuta la sicurezza utilizzando una tassonomia dei pericoli e metriche di memorizzazione.

Fatti principali

SAD è un framework di guida alla sicurezza per modelli di diffusione testuali.
Modifica il processo di denoising per garantire una generazione di testo sicura.
Gli approcci di sicurezza esistenti sono progettati per modelli autoregressivi.
SAD evita il costoso riaddestramento computazionale.
Utilizza vincoli di sicurezza durante l'inferenza.
La valutazione della sicurezza include tassonomia dei pericoli e memorizzazione.
Il metodo è leggero e flessibile.
Guida i campioni verso regioni di testo provabilmente sicure.

Entità

—

Fonti

arXiv cs.AI — 2026-05-12