Unlearning Depth Score misura la cancellazione della conoscenza nei LLM

ai-technology · 2026-05-26

Una nuova metrica chiamata Unlearning Depth Score (UDS) quantifica la profondità con cui la conoscenza viene cancellata dai grandi modelli linguistici (LLM) dopo l'unlearning. Le metriche esistenti a livello di output non riescono a rilevare la conoscenza residua recuperabile dalle rappresentazioni interne, e i metodi white-box spesso richiedono addestramento ausiliario. UDS utilizza l'activation patching per identificare i livelli che codificano la conoscenza target tramite un modello di base di retention, quindi misura la cancellazione su una scala da 0 a 1. In una meta-valutazione di 20 metriche su 150 modelli unlearned provenienti da 8 metodi, UDS ha ottenuto la massima fedeltà e robustezza. La ricerca è pubblicata su arXiv con identificativo 2605.24614.

Fatti principali

UDS sta per Unlearning Depth Score
UDS utilizza l'activation patching per misurare la profondità della cancellazione della conoscenza
Identifica i livelli che codificano la conoscenza target usando un modello di base di retention
La metrica produce un punteggio su scala da 0 a 1
La meta-valutazione ha coperto 20 metriche su 150 modelli unlearned
I modelli provenivano da 8 diversi metodi di unlearning
UDS ha ottenuto la massima fedeltà e robustezza nella valutazione
Pubblicato su arXiv con ID 2605.24614

Unlearning Depth Score misura la cancellazione della conoscenza nei LLM

Fatti principali

Entità

Istituzioni

Fonti