Studio di interpretabilità meccanicistica rivela un circuito di censura in Qwen 3.5 LLM

ai-technology · 2026-05-19

Uno studio di interpretabilità meccanicistica del grande modello linguistico Qwen 3.5-9B rivela un piccolo circuito identificabile responsabile della censura politica di argomenti relativi alla Repubblica Popolare Cinese (RPC). La censura non è il risultato di una mancanza di conoscenza fattuale: il modello base (Qwen 3.5-9B-Base) fornisce risposte accurate, inquadrate secondo la prospettiva occidentale, su argomenti come Piazza Tiananmen, Falun Gong e Taiwan. Invece, i livelli di post-addestramento applicano un filtro comportamentale su questi fatti. Il circuito è composto da due metà: una banda di scrittura (livelli 11–20) che calcola tre direzioni interne—se il prompt è sensibile per la RPC (d_prc), se rifiutare (d_refuse) e se deviare o fare propaganda (d_style)—e una banda di lettura (livelli 20–31) che traduce la decisione in testo. Il verdetto si concretizza in token cinesi intorno al livello 24, anche per prompt in inglese, ma questo intermedio cinese è comportamentalmente inerte. Manipolando queste direzioni al livello di scrittura si può invertire il comportamento del modello: sottraendo d_prc su un prompt su Tiananmen si ottiene una risposta fattuale, mentre sottraendo d_refuse si eludono le restrizioni per prompt dannosi. Il filtro è per lo più specifico per la RPC ma si generalizza eccessivamente a prompt non RPC strutturalmente simili (ad esempio, Kosovo, Catalogna, Arabia Saudita, autoimmolazione della Primavera Araba). Lo studio è stato condotto da un ricercatore indipendente e pubblicato su un blog personale.

Fatti principali

La censura politica di Qwen 3.5-9B è un piccolo circuito identificabile che può essere trovato, letto e disattivato.
La conoscenza fattuale è già presente nel pre-addestramento; la censura è un comportamento sovrapposto.
Il circuito ha due metà: banda di scrittura (livelli 11–20) e banda di lettura (livelli 20–31).
Vengono calcolate tre direzioni interne: d_prc (contenuto sensibile per la RPC), d_refuse (rifiuto), d_style (deviazione vs. propaganda).
Il verdetto si concretizza in token cinesi intorno al livello 24, ma è comportamentalmente inerte.
Manipolando al livello di scrittura si può invertire il comportamento: sottraendo d_prc si ottengono risposte fattuali su argomenti RPC.
Il filtro è per lo più specifico per la RPC ma si generalizza eccessivamente a prompt su Kosovo, Catalogna, Arabia Saudita e autoimmolazione.
Il modello è abbastanza piccolo da funzionare su una GPU RTX consumer, consentendo esperimenti a basso costo.

Entità

Istituzioni

Qwen
Hugging Face

Luoghi

China
Tiananmen Square
Taiwan
Xinjiang
Hong Kong
Tibet
Falun Gong
Kosovo
Catalonia
Saudi Arabia
Arab Spring

Fonti

Hacker News AI — 2026-05-19