L'allineamento sonda-geometria elimina la memorizzazione degli LLM al di sotto del caso
Un nuovo studio su arXiv (2605.01699) dimostra che le sonde avversarie possono rilevare tracce di memorizzazione nei grandi modelli linguistici anche dopo un behavioral unlearning, ma queste tracce possono essere rimosse chirurgicamente senza perdita di capacità. Il protocollo utilizza una sonda leave-one-out cross-sequence per testare la generalizzazione delle firme di memorizzazione su sequenze escluse. Le firme sono risultate coerenti su diverse scale: gap di memorizzazione specifici di +0,32, +0,19 e +0,30 rispettivamente su Pythia-70M, GPT-2 medium e Mistral-7B. Su Pythia-70M, il controllo con inizializzazione casuale è crollato a -0,04 nel livello più profondo dove la firma pre-addestrata raggiungeva il picco. La direzione della sonda è causalmente separabile dal richiamo: proiettandola via, la firma collassa localmente (+0,44 a -0,19) mentre il richiamo comportamentale cambia a malapena. Una sonda addestrata su contenuti naturalmente memorizzati non classifica i segreti iniettati tramite fine-tuning, indicando due rappresentazioni distinte.
Fatti principali
- Articolo arXiv 2605.01699 sull'allineamento sonda-geometria
- Le sonde avversarie rilevano tracce di memorizzazione dopo l'unlearning
- Sonda leave-one-out cross-sequence utilizzata
- Gap di memorizzazione: +0,32 (Pythia-70M), +0,19 (GPT-2 medium), +0,30 (Mistral-7B)
- Il controllo con inizializzazione casuale collassa a -0,04 su Pythia-70M
- Direzione della sonda separabile dal richiamo: firma scende da +0,44 a -0,19
- Il richiamo comportamentale cambia a malapena dopo la proiezione
- La sonda su contenuti naturalmente memorizzati non classifica i segreti iniettati
Entità
Istituzioni
- arXiv