ASRU: Un Nuovo Framework per il Machine Unlearning in LLM Multimodali

ai-technology · 2026-05-18

I ricercatori hanno proposto ASRU, un framework di unlearning multimodale controllabile che affronta la sfida di rimuovere informazioni cross-modali sensibili da modelli linguistici di grandi dimensioni multimodali (MLLM) preservando la qualità della generazione. I metodi di unlearning esistenti spesso valutano l'efficacia basandosi esclusivamente sulle deviazioni dell'output, portando a risposte allucinate o rigide. ASRU introduce la qualità della generazione come obiettivo di valutazione centrale, inducendo prima un comportamento di rifiuto attraverso il reindirizzamento dell'attivazione, quindi ottimizzando i confini del rifiuto tramite una funzione di ricompensa personalizzata. Esperimenti su Qwen3-VL mostrano che ASRU migliora l'efficacia dell'unlearning del 24,6% in media, mantenendo l'utilità del modello. Il paper è disponibile su arXiv con ID 2605.15687.

Fatti principali

ASRU è un framework di unlearning multimodale controllabile per MLLM.
Integra la qualità della generazione come obiettivo di valutazione centrale.
ASRU utilizza il reindirizzamento dell'attivazione per indurre un comportamento di rifiuto.
Una funzione di ricompensa personalizzata ottimizza i confini granulari del rifiuto.
Esperimenti su Qwen3-VL mostrano un miglioramento medio del 24,6% nell'efficacia dell'unlearning.
Il framework mira a bilanciare l'unlearning delle conoscenze target e l'utilità del modello.
I metodi esistenti trascurano la qualità della generazione dopo l'unlearning.
Il paper è pubblicato su arXiv con ID 2605.15687.

ASRU: Un Nuovo Framework per il Machine Unlearning in LLM Multimodali

Fatti principali

Entità

Istituzioni

Fonti