Dimenticanza Visiva Contrastiva con Vincoli di Spazio Nullo per l'Unlearning in MLLM

ai-technology · 2026-05-09

Uno studio recente pubblicato su arXiv (2605.05909) presenta una nuova tecnica di unlearning per Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM), che consente la cancellazione selettiva di conoscenze visive specifiche mantenendo intatte tutte le conoscenze testuali e le informazioni visive non target. Questo metodo prevede il congelamento del backbone del LLM e il solo fine-tuning del componente visivo. Introduce un meccanismo di Dimenticanza Visiva Contrastiva (CVF) che differenzia tra la conoscenza visiva target e quella preservata nello spazio delle feature, impiegando vincoli di spazio nullo per garantire che l'unlearning sia confinato alla conoscenza trattenuta. Questa innovazione affronta la difficoltà di gestire la rimozione e la conservazione della conoscenza nei MLLM che integrano modalità visive e testuali.

Fatti principali

Articolo su arXiv: 2605.05909
Tipo di annuncio: nuovo
Focus: unlearning in MLLM
Metodo: congelare il backbone del LLM, fine-tuning del modulo visivo
Meccanismo di Dimenticanza Visiva Contrastiva (CVF)
Vincoli di spazio nullo per la conoscenza trattenuta
Obiettivo: dimenticare la conoscenza visiva target, preservare quella visiva non target e tutta quella testuale
Affronta la sfida di bilanciare rimozione e conservazione nei modelli multimodali

Dimenticanza Visiva Contrastiva con Vincoli di Spazio Nullo per l'Unlearning in MLLM

Fatti principali

Entità

Istituzioni

Fonti