ARTFEED — Contemporary Art Intelligence

Denoiser Consapevole della Sicurezza per Modelli di Diffusione Testuali

ai-technology · 2026-05-12

Un nuovo framework chiamato Safety-Aware Denoiser (SAD) affronta i rischi per la sicurezza nei modelli di diffusione testuali, che rappresentano un'alternativa alla generazione autoregressiva. I metodi di sicurezza esistenti si basano su filtraggio post-hoc o interventi durante l'inferenza progettati per modelli autoregressivi, risultando inadeguati per i modelli di diffusione. SAD modifica il processo di denoising iterativo per guidare i campioni di testo finali verso regioni provabilmente sicure, integrando vincoli di sicurezza senza necessità di riaddestramento. Valuta la sicurezza utilizzando una tassonomia dei pericoli e metriche di memorizzazione.

Fatti principali

  • SAD è un framework di guida alla sicurezza per modelli di diffusione testuali.
  • Modifica il processo di denoising per garantire una generazione di testo sicura.
  • Gli approcci di sicurezza esistenti sono progettati per modelli autoregressivi.
  • SAD evita il costoso riaddestramento computazionale.
  • Utilizza vincoli di sicurezza durante l'inferenza.
  • La valutazione della sicurezza include tassonomia dei pericoli e memorizzazione.
  • Il metodo è leggero e flessibile.
  • Guida i campioni verso regioni di testo provabilmente sicure.

Entità

Fonti