ReMem: Un Benchmark Affidabile per il Disapprendimento nei LVLM

ai-technology · 2026-05-07

Una recente indagine pubblicata su arXiv (2605.03759) rivela un problema significativo nei benchmark di unlearning esistenti per i Large Vision-Language Models (LVLM): non garantiscono che i modelli prima memorizzino le informazioni target, portando a valutazioni inaffidabili del disapprendimento. I ricercatori individuano la sotto-memorizzazione e la maledizione multi-hop come problemi fondamentali. Per affrontarli, propongono ReMem (Reliable Multi-hop and Multi-image Memorization Benchmark), che promuove un apprendimento di base solido attraverso scaling sistematico dei dati, coppie QA consapevoli del ragionamento e contesti visivi vari. Inoltre, una nuova metrica Exposure misura l'entità della rimozione delle informazioni dalla distribuzione di probabilità interna del modello. I risultati dimostrano che ReMem offre un quadro completo per identificare fallimenti sia nei processi di apprendimento che di disapprendimento.

Fatti principali

L'articolo arXiv 2605.03759 identifica un fallimento di stadio 1 nei benchmark di unlearning per LVLM
I modelli non riescono a memorizzare efficacemente le informazioni target inizialmente
La sotto-memorizzazione e la maledizione multi-hop sono le cause principali
Il benchmark ReMem garantisce un apprendimento di base robusto
ReMem utilizza scaling dei dati basato su principi, coppie QA consapevoli del ragionamento e contesti visivi diversi
La nuova metrica Exposure quantifica la profondità della cancellazione delle informazioni
Gli esperimenti dimostrano che ReMem fornisce un quadro rigoroso per diagnosticare fallimenti nell'apprendimento e nel disapprendimento

ReMem: Un Benchmark Affidabile per il Disapprendimento nei LVLM

Fatti principali

Entità

Istituzioni

Fonti