ARTFEED — Contemporary Art Intelligence

Verifica delle Affermazioni sulla Memorizzazione delle Tracce di Ragionamento dopo l'Unlearning con Canarie Condizionate dalla Testa

other · 2026-05-20

Un recente preprint su arXiv (2605.18891) esamina l'affermazione che i modelli di ragionamento mantengano informazioni memorizzate nelle loro tracce cognitive anche dopo aver subito un unlearning. I ricercatori hanno utilizzato DeepSeek-R1-Distill-Qwen-7B con autori fittizi memorizzati tramite LoRA e unlearning NPO, basato su una testa canaria di sei token. Hanno scoperto che sostituendo la traccia di pensiero con un breve prefill non canario sugli stessi pesi portava a una significativa riduzione del tasso di risposta, corrispondente al gap di bypass su un seed, indipendentemente dal fatto che il prefill assomigliasse al template di addestramento. Al contrario, su un altro seed, il gap di bypass si è ridotto e lo scambio di prefill si è invertito, aumentando il tasso di risposta al massimo. I risultati suggeriscono che un gap di bypass positivo da parser-split da solo non conferma né nega la memorizzazione nascosta a livello di peso. La ricerca è stata condotta da autori di istituzioni non specificate e condivisa su arXiv.

Fatti principali

  • arXiv:2605.18891v1 è un annuncio di tipo cross.
  • Lo studio verifica i pattern di bypass nei modelli di ragionamento dopo l'unlearning.
  • DeepSeek-R1-Distill-Qwen-7B è stato utilizzato con autori fittizi memorizzati tramite LoRA.
  • L'unlearning NPO è stato applicato, condizionato da una testa canaria di sei token.
  • Su un seed, la sostituzione della traccia di pensiero con un breve prefill non canario ha ridotto il tasso di risposta tanto quanto il gap di bypass.
  • Su un secondo seed, il gap di bypass si è ridotto e lo scambio di prefill ha invertito la direzione.
  • Un gap di bypass positivo da parser-split non indica in modo definitivo una memorizzazione a livello di peso.
  • La stessa metrica ha cambiato segno su un diverso distillato.

Entità

Istituzioni

  • arXiv

Fonti