Non apprendibilità e disimparare per la dememorizzazione dei modelli
Uno studio recente pubblicato su arXiv (2605.11592) esplora tecniche sofisticate per la dememorizzazione dei modelli, come l'avvelenamento della disponibilità (non apprendibilità) e il machine unlearning, che mirano a mitigare lo sfruttamento dei dati nell'apprendimento automatico. La non apprendibilità incorpora sottili alterazioni nei dati prima della loro pubblicazione per ridurre l'apprendibilità, mentre l'unlearning elimina le informazioni dopo l'addestramento. Lo studio rivela debolezze comuni: entrambi gli approcci soffrono di dememorizzazione superficiale, portando ad affermazioni fuorvianti sulla ridotta apprendibilità dei dati o sull'oblio dovuto a cambiamenti di peso. Inoltre, le perturbazioni in input possono influenzare l'unlearning successivo, e l'unlearning potrebbe inavvertitamente recuperare conoscenze di dominio oscurate dalla non apprendibilità. Questa ricerca sottolinea la necessità di misure protettive più forti.
Fatti principali
- Il paper arXiv 2605.11592 esamina la non apprendibilità e il machine unlearning.
- La non apprendibilità incorpora perturbazioni nei dati prima della pubblicazione.
- L'unlearning rimuove informazioni dai modelli dopo l'addestramento.
- Entrambi i metodi soffrono di dememorizzazione superficiale.
- Le perturbazioni di peso possono causare un oblio falsamente dichiarato.
- Le perturbazioni in input possono influenzare l'unlearning a valle.
- L'unlearning può recuperare conoscenze di dominio nascoste dalla non apprendibilità.
- Il paper identifica vulnerabilità condivise nella dememorizzazione.
Entità
Istituzioni
- arXiv