ARTFEED — Contemporary Art Intelligence

Unlearning Depth Score misura la cancellazione della conoscenza nei LLM

ai-technology · 2026-05-26

Una nuova metrica chiamata Unlearning Depth Score (UDS) quantifica la profondità con cui la conoscenza viene cancellata dai grandi modelli linguistici (LLM) dopo l'unlearning. Le metriche esistenti a livello di output non riescono a rilevare la conoscenza residua recuperabile dalle rappresentazioni interne, e i metodi white-box spesso richiedono addestramento ausiliario. UDS utilizza l'activation patching per identificare i livelli che codificano la conoscenza target tramite un modello di base di retention, quindi misura la cancellazione su una scala da 0 a 1. In una meta-valutazione di 20 metriche su 150 modelli unlearned provenienti da 8 metodi, UDS ha ottenuto la massima fedeltà e robustezza. La ricerca è pubblicata su arXiv con identificativo 2605.24614.

Fatti principali

  • UDS sta per Unlearning Depth Score
  • UDS utilizza l'activation patching per misurare la profondità della cancellazione della conoscenza
  • Identifica i livelli che codificano la conoscenza target usando un modello di base di retention
  • La metrica produce un punteggio su scala da 0 a 1
  • La meta-valutazione ha coperto 20 metriche su 150 modelli unlearned
  • I modelli provenivano da 8 diversi metodi di unlearning
  • UDS ha ottenuto la massima fedeltà e robustezza nella valutazione
  • Pubblicato su arXiv con ID 2605.24614

Entità

Istituzioni

  • arXiv

Fonti