Localizzare i circuiti politici nei modelli linguistici addestrati all'allineamento

ai-technology · 2026-05-04

Un recente preprint su arXiv (2604.04385v4) rivela un sistema di routing politico localizzato all'interno di modelli linguistici addestrati all'allineamento. Un gate di attenzione situato in uno strato intermedio identifica il contenuto e attiva teste amplificatrici più profonde che potenziano i segnali di rifiuto. Nei modelli più piccoli, sia il gate che l'amplificatore funzionano come teste singole, mentre nei modelli più grandi operano come bande attraverso strati vicini. Sebbene il gate rappresenti meno dell'1% della DLA di output, è causalmente essenziale (p < 0,001). Lo screening di interscambio a n ≥ 120 scopre lo stesso schema in dodici modelli di sei diversi laboratori (da 2B a 72B), sebbene le teste specifiche differiscano per laboratorio. L'ablazione per testa può ridurre l'efficacia fino a 58x a 72B, mancando i gate identificati dall'interscambio; su larga scala, l'interscambio funge da unico audit affidabile. La modulazione continua del segnale dello strato di rilevamento gestisce la politica dal rifiuto totale all'evasione e alle risposte fattuali. Sugli stimoli di sicurezza, questo stesso intervento può trasformare il rifiuto in risultati dannosi.

Fatti principali

arXiv:2604.04385v4
Un gate di attenzione dello strato intermedio e teste amplificatrici controllano il rifiuto
Il gate contribuisce per meno dell'1% della DLA di output ma è causalmente necessario (p < 0,001)
Lo screening di interscambio a n ≥ 120 rileva il motivo in 12 modelli di 6 laboratori (da 2B a 72B)
L'ablazione per testa indebolisce fino a 58x a 72B e manca i gate
Modulare il segnale dello strato di rilevamento controlla la politica dal rifiuto totale alla risposta fattuale
Lo stesso intervento trasforma il rifiuto in output dannosi sugli stimoli di sicurezza

Localizzare i circuiti politici nei modelli linguistici addestrati all'allineamento

Fatti principali

Entità

Istituzioni

Fonti