Esposta la Censura Politica nei LLM Cinesi

ai-technology · 2026-05-04

Uno studio su arXiv (2603.18280) rivela che gli attuali metodi di valutazione dell'allineamento per i modelli linguistici falliscono perché misurano il rilevamento dei concetti e i tassi di rifiuto, perdendo il cruciale strato di instradamento tra rilevamento e politica comportamentale. Utilizzando la censura politica nei modelli di origine cinese come esperimento naturale, ricercatori di cinque laboratori hanno testato nove modelli open-weight con sonde, ablazioni chirurgiche e test comportamentali. Hanno scoperto che l'accuratezza della sonda da sola non è diagnostica: sonde politiche, controlli nulli e baseline di permutazione raggiungono tutti il 100%, rendendo la generalizzazione su categorie escluse il test informativo. L'ablazione chirurgica ha scoperto meccanismi di instradamento specifici per laboratorio: rimuovere la direzione di sensibilità politica ha eliminato la censura e ripristinato output fattuali accurati nella maggior parte dei modelli, ma un modello ha confabulato a causa dell'intreccio tra conoscenza fattuale e meccanismi di censura. L'articolo è disponibile su arXiv.

Fatti principali

Articolo arXiv 2603.18280 pubblicato a marzo 2025
Lo studio esamina la censura politica nei modelli linguistici di origine cinese
Testati nove modelli open-weight da cinque laboratori
L'accuratezza della sonda da sola non è diagnostica (tutte le baseline raggiungono il 100%)
L'ablazione chirurgica rivela meccanismi di instradamento specifici per laboratorio
Rimuovere la direzione di sensibilità politica elimina la censura nella maggior parte dei modelli
Un modello confabula a causa dell'architettura intrecciata
La generalizzazione su categorie escluse è il test informativo

Esposta la Censura Politica nei LLM Cinesi

Fatti principali

Entità

Istituzioni

Fonti