SPOT: Sicurezza in Tempo di Inferenza per la Generazione di Immagini da Testo tramite Proiezione di Prompt
I ricercatori propongono SPOT (Selective Prompt Projection), un framework a tempo di inferenza per la generazione sicura di immagini da testo. Il metodo affronta la tensione tra la soppressione di output non sicuri e la preservazione del comportamento benigno in modelli di diffusione congelati. Formalizza il Safety-Prompt Alignment Tradeoff (SPAT), dove la riduzione dell'insicurezza attesa richiede una deviazione dalla distribuzione condizionata dal prompt. SPOT definisce un insieme tau-sicuro di prompt con rischio di riferimento al massimo tau e interviene proiettando i prompt verso questo insieme. L'approccio utilizza la variazione totale (TV) per limitare le variazioni di rischio. L'articolo è disponibile su arXiv con ID 2602.00616.
Fatti principali
- SPOT è un framework a tempo di inferenza per la generazione sicura di immagini da testo.
- Utilizza la variazione totale per limitare le variazioni di rischio atteso.
- Viene introdotto il Safety-Prompt Alignment Tradeoff (SPAT).
- Un insieme tau-sicuro di prompt è definito in base al rischio di riferimento.
- L'intervento è formulato come proiezione verso prompt vicini nell'insieme sicuro.
- Il metodo funziona con modelli di diffusione congelati.
- L'articolo è disponibile su arXiv (ID 2602.00616).
- L'approccio è progettato per una sicurezza selettiva e regolabile.
Entità
Istituzioni
- arXiv