SafeRedir: Un Framework Leggero per il Disapprendimento Robusto nei Modelli di Generazione di Immagini

ai-technology · 2026-05-07

I ricercatori hanno introdotto SafeRedir, un framework leggero per il tempo di inferenza progettato per cancellare concetti dannosi dai modelli di generazione di immagini (IGM) senza costosi riaddestramenti. Gli IGM spesso memorizzano contenuti indesiderati dai dati di addestramento, come immagini NSFW e stili artistici protetti da copyright, ponendo rischi per la sicurezza e la conformità. I metodi di filtraggio post-hoc mancano di robustezza e controllo semantico fine. I metodi di disapprendimento esistenti richiedono riaddestramento, degradano la qualità della generazione o falliscono contro attacchi di parafrasi e avversari. SafeRedir opera tramite reindirizzamento dell'embedding del prompt, modificando il comportamento del modello al momento dell'inferenza per prevenire la riproduzione di contenuti non sicuri, preservando al contempo la qualità della generazione benigna. Il framework non altera i pesi del modello sottostante, rendendolo efficiente e adattabile. Questo approccio risponde alla necessità di un disapprendimento robusto e scalabile nelle implementazioni reali dell'IA generativa.

Fatti principali

SafeRedir è un framework leggero per il tempo di inferenza per il disapprendimento nei modelli di generazione di immagini.
Utilizza il reindirizzamento dell'embedding del prompt per cancellare concetti dannosi senza riaddestramento.
Gli IGM spesso memorizzano immagini NSFW e stili protetti da copyright dai dati di addestramento.
Il filtraggio post-hoc non è robusto e manca di controllo semantico fine.
I metodi di disapprendimento esistenti richiedono costosi riaddestramenti o degradano la qualità della generazione.
SafeRedir non modifica i pesi del modello, preservando la qualità della generazione benigna.
Il framework è progettato per resistere ad attacchi di parafrasi del prompt e avversari.
SafeRedir affronta i rischi per la sicurezza e la conformità nelle implementazioni reali.

Entità

—

Fonti

arXiv cs.AI — 2026-05-07