RULER: Nuove Metriche Rivelano che il Machine Unlearning Fallisce a Livello di Rappresentazione
Un nuovo insieme di metriche per la verifica a livello di rappresentazione nel machine unlearning, denominato RULER, è stato sviluppato dai ricercatori, indicando che le attuali valutazioni a livello di output sono insufficienti. I risultati, dettagliati in uno studio su arXiv (2605.27569), dimostrano che anche quando i modelli superano l'inferenza di appartenenza e mantengono l'accuratezza, possono comunque trattenere dati dimenticati nelle loro rappresentazioni intermedie. RULER comprende due metriche: M2, che valuta le rappresentazioni del forget-set rispetto a un modello riaddestrato, e M4, che identifica residui senza necessità di riaddestramento. Nei test di quattro tecniche di unlearning approssimato, M2 ha rivelato residui significativi in 10 su 12 scenari (p<0,05), con dimensioni dell'effetto maggiori correlate a frazioni di forget più elevate. Questa ricerca sottolinea una carenza vitale nella verifica dell'unlearning e sostiene uno standard più rigoroso.
Fatti principali
- 1. Il machine unlearning mira a rimuovere l'influenza dei record di addestramento senza riaddestrare.
- 2. La verifica attuale controlla metriche a livello di output: inferenza di appartenenza, accuratezza di retain, accuratezza del forget-set.
- 3. I modelli possono superare tutti e tre mentre ancora codificano record dimenticati nelle rappresentazioni intermedie.
- 4. RULER introduce metriche di verifica a livello di rappresentazione.
- 5. M2 è una metrica comparativa con oracolo che misura la posizione rappresentazionale del forget-set.
- 6. M4 è una metrica senza oracolo che rileva residui dalla struttura di similarità interna.
- 7. Quattro metodi di unlearning approssimato hanno superato la valutazione a livello di output.
- 8. M2 ha rilevato residui significativi in 10 su 12 condizioni (p<0,05).
Entità
Istituzioni
- arXiv