L'allineamento sonda-geometria elimina la memorizzazione degli LLM al di sotto del caso

other · 2026-05-06

Un nuovo studio su arXiv (2605.01699) dimostra che le sonde avversarie possono rilevare tracce di memorizzazione nei grandi modelli linguistici anche dopo un behavioral unlearning, ma queste tracce possono essere rimosse chirurgicamente senza perdita di capacità. Il protocollo utilizza una sonda leave-one-out cross-sequence per testare la generalizzazione delle firme di memorizzazione su sequenze escluse. Le firme sono risultate coerenti su diverse scale: gap di memorizzazione specifici di +0,32, +0,19 e +0,30 rispettivamente su Pythia-70M, GPT-2 medium e Mistral-7B. Su Pythia-70M, il controllo con inizializzazione casuale è crollato a -0,04 nel livello più profondo dove la firma pre-addestrata raggiungeva il picco. La direzione della sonda è causalmente separabile dal richiamo: proiettandola via, la firma collassa localmente (+0,44 a -0,19) mentre il richiamo comportamentale cambia a malapena. Una sonda addestrata su contenuti naturalmente memorizzati non classifica i segreti iniettati tramite fine-tuning, indicando due rappresentazioni distinte.

Fatti principali

Articolo arXiv 2605.01699 sull'allineamento sonda-geometria
Le sonde avversarie rilevano tracce di memorizzazione dopo l'unlearning
Sonda leave-one-out cross-sequence utilizzata
Gap di memorizzazione: +0,32 (Pythia-70M), +0,19 (GPT-2 medium), +0,30 (Mistral-7B)
Il controllo con inizializzazione casuale collassa a -0,04 su Pythia-70M
Direzione della sonda separabile dal richiamo: firma scende da +0,44 a -0,19
Il richiamo comportamentale cambia a malapena dopo la proiezione
La sonda su contenuti naturalmente memorizzati non classifica i segreti iniettati

L'allineamento sonda-geometria elimina la memorizzazione degli LLM al di sotto del caso

Fatti principali

Entità

Istituzioni

Fonti