Unlearning Depth Score misura la cancellazione della conoscenza nei LLM
Una nuova metrica chiamata Unlearning Depth Score (UDS) quantifica la profondità con cui la conoscenza viene cancellata dai grandi modelli linguistici (LLM) dopo l'unlearning. Le metriche esistenti a livello di output non riescono a rilevare la conoscenza residua recuperabile dalle rappresentazioni interne, e i metodi white-box spesso richiedono addestramento ausiliario. UDS utilizza l'activation patching per identificare i livelli che codificano la conoscenza target tramite un modello di base di retention, quindi misura la cancellazione su una scala da 0 a 1. In una meta-valutazione di 20 metriche su 150 modelli unlearned provenienti da 8 metodi, UDS ha ottenuto la massima fedeltà e robustezza. La ricerca è pubblicata su arXiv con identificativo 2605.24614.
Fatti principali
- UDS sta per Unlearning Depth Score
- UDS utilizza l'activation patching per misurare la profondità della cancellazione della conoscenza
- Identifica i livelli che codificano la conoscenza target usando un modello di base di retention
- La metrica produce un punteggio su scala da 0 a 1
- La meta-valutazione ha coperto 20 metriche su 150 modelli unlearned
- I modelli provenivano da 8 diversi metodi di unlearning
- UDS ha ottenuto la massima fedeltà e robustezza nella valutazione
- Pubblicato su arXiv con ID 2605.24614
Entità
Istituzioni
- arXiv