ReMem: Un Benchmark Affidabile per il Disapprendimento nei LVLM
Una recente indagine pubblicata su arXiv (2605.03759) rivela un problema significativo nei benchmark di unlearning esistenti per i Large Vision-Language Models (LVLM): non garantiscono che i modelli prima memorizzino le informazioni target, portando a valutazioni inaffidabili del disapprendimento. I ricercatori individuano la sotto-memorizzazione e la maledizione multi-hop come problemi fondamentali. Per affrontarli, propongono ReMem (Reliable Multi-hop and Multi-image Memorization Benchmark), che promuove un apprendimento di base solido attraverso scaling sistematico dei dati, coppie QA consapevoli del ragionamento e contesti visivi vari. Inoltre, una nuova metrica Exposure misura l'entità della rimozione delle informazioni dalla distribuzione di probabilità interna del modello. I risultati dimostrano che ReMem offre un quadro completo per identificare fallimenti sia nei processi di apprendimento che di disapprendimento.
Fatti principali
- L'articolo arXiv 2605.03759 identifica un fallimento di stadio 1 nei benchmark di unlearning per LVLM
- I modelli non riescono a memorizzare efficacemente le informazioni target inizialmente
- La sotto-memorizzazione e la maledizione multi-hop sono le cause principali
- Il benchmark ReMem garantisce un apprendimento di base robusto
- ReMem utilizza scaling dei dati basato su principi, coppie QA consapevoli del ragionamento e contesti visivi diversi
- La nuova metrica Exposure quantifica la profondità della cancellazione delle informazioni
- Gli esperimenti dimostrano che ReMem fornisce un quadro rigoroso per diagnosticare fallimenti nell'apprendimento e nel disapprendimento
Entità
Istituzioni
- arXiv