Studio di interpretabilità meccanicistica rivela un circuito di censura in Qwen 3.5 LLM
Uno studio di interpretabilità meccanicistica del grande modello linguistico Qwen 3.5-9B rivela un piccolo circuito identificabile responsabile della censura politica di argomenti relativi alla Repubblica Popolare Cinese (RPC). La censura non è il risultato di una mancanza di conoscenza fattuale: il modello base (Qwen 3.5-9B-Base) fornisce risposte accurate, inquadrate secondo la prospettiva occidentale, su argomenti come Piazza Tiananmen, Falun Gong e Taiwan. Invece, i livelli di post-addestramento applicano un filtro comportamentale su questi fatti. Il circuito è composto da due metà: una banda di scrittura (livelli 11–20) che calcola tre direzioni interne—se il prompt è sensibile per la RPC (d_prc), se rifiutare (d_refuse) e se deviare o fare propaganda (d_style)—e una banda di lettura (livelli 20–31) che traduce la decisione in testo. Il verdetto si concretizza in token cinesi intorno al livello 24, anche per prompt in inglese, ma questo intermedio cinese è comportamentalmente inerte. Manipolando queste direzioni al livello di scrittura si può invertire il comportamento del modello: sottraendo d_prc su un prompt su Tiananmen si ottiene una risposta fattuale, mentre sottraendo d_refuse si eludono le restrizioni per prompt dannosi. Il filtro è per lo più specifico per la RPC ma si generalizza eccessivamente a prompt non RPC strutturalmente simili (ad esempio, Kosovo, Catalogna, Arabia Saudita, autoimmolazione della Primavera Araba). Lo studio è stato condotto da un ricercatore indipendente e pubblicato su un blog personale.
Fatti principali
- La censura politica di Qwen 3.5-9B è un piccolo circuito identificabile che può essere trovato, letto e disattivato.
- La conoscenza fattuale è già presente nel pre-addestramento; la censura è un comportamento sovrapposto.
- Il circuito ha due metà: banda di scrittura (livelli 11–20) e banda di lettura (livelli 20–31).
- Vengono calcolate tre direzioni interne: d_prc (contenuto sensibile per la RPC), d_refuse (rifiuto), d_style (deviazione vs. propaganda).
- Il verdetto si concretizza in token cinesi intorno al livello 24, ma è comportamentalmente inerte.
- Manipolando al livello di scrittura si può invertire il comportamento: sottraendo d_prc si ottengono risposte fattuali su argomenti RPC.
- Il filtro è per lo più specifico per la RPC ma si generalizza eccessivamente a prompt su Kosovo, Catalogna, Arabia Saudita e autoimmolazione.
- Il modello è abbastanza piccolo da funzionare su una GPU RTX consumer, consentendo esperimenti a basso costo.
Entità
Istituzioni
- Qwen
- Hugging Face
Luoghi
- China
- Tiananmen Square
- Taiwan
- Xinjiang
- Hong Kong
- Tibet
- Falun Gong
- Kosovo
- Catalonia
- Saudi Arabia
- Arab Spring