ASRU: Un Nuovo Framework per il Machine Unlearning in LLM Multimodali
I ricercatori hanno proposto ASRU, un framework di unlearning multimodale controllabile che affronta la sfida di rimuovere informazioni cross-modali sensibili da modelli linguistici di grandi dimensioni multimodali (MLLM) preservando la qualità della generazione. I metodi di unlearning esistenti spesso valutano l'efficacia basandosi esclusivamente sulle deviazioni dell'output, portando a risposte allucinate o rigide. ASRU introduce la qualità della generazione come obiettivo di valutazione centrale, inducendo prima un comportamento di rifiuto attraverso il reindirizzamento dell'attivazione, quindi ottimizzando i confini del rifiuto tramite una funzione di ricompensa personalizzata. Esperimenti su Qwen3-VL mostrano che ASRU migliora l'efficacia dell'unlearning del 24,6% in media, mantenendo l'utilità del modello. Il paper è disponibile su arXiv con ID 2605.15687.
Fatti principali
- ASRU è un framework di unlearning multimodale controllabile per MLLM.
- Integra la qualità della generazione come obiettivo di valutazione centrale.
- ASRU utilizza il reindirizzamento dell'attivazione per indurre un comportamento di rifiuto.
- Una funzione di ricompensa personalizzata ottimizza i confini granulari del rifiuto.
- Esperimenti su Qwen3-VL mostrano un miglioramento medio del 24,6% nell'efficacia dell'unlearning.
- Il framework mira a bilanciare l'unlearning delle conoscenze target e l'utilità del modello.
- I metodi esistenti trascurano la qualità della generazione dopo l'unlearning.
- Il paper è pubblicato su arXiv con ID 2605.15687.
Entità
Istituzioni
- arXiv