Esposta la Censura Politica nei LLM Cinesi
Uno studio su arXiv (2603.18280) rivela che gli attuali metodi di valutazione dell'allineamento per i modelli linguistici falliscono perché misurano il rilevamento dei concetti e i tassi di rifiuto, perdendo il cruciale strato di instradamento tra rilevamento e politica comportamentale. Utilizzando la censura politica nei modelli di origine cinese come esperimento naturale, ricercatori di cinque laboratori hanno testato nove modelli open-weight con sonde, ablazioni chirurgiche e test comportamentali. Hanno scoperto che l'accuratezza della sonda da sola non è diagnostica: sonde politiche, controlli nulli e baseline di permutazione raggiungono tutti il 100%, rendendo la generalizzazione su categorie escluse il test informativo. L'ablazione chirurgica ha scoperto meccanismi di instradamento specifici per laboratorio: rimuovere la direzione di sensibilità politica ha eliminato la censura e ripristinato output fattuali accurati nella maggior parte dei modelli, ma un modello ha confabulato a causa dell'intreccio tra conoscenza fattuale e meccanismi di censura. L'articolo è disponibile su arXiv.
Fatti principali
- Articolo arXiv 2603.18280 pubblicato a marzo 2025
- Lo studio esamina la censura politica nei modelli linguistici di origine cinese
- Testati nove modelli open-weight da cinque laboratori
- L'accuratezza della sonda da sola non è diagnostica (tutte le baseline raggiungono il 100%)
- L'ablazione chirurgica rivela meccanismi di instradamento specifici per laboratorio
- Rimuovere la direzione di sensibilità politica elimina la censura nella maggior parte dei modelli
- Un modello confabula a causa dell'architettura intrecciata
- La generalizzazione su categorie escluse è il test informativo
Entità
Istituzioni
- arXiv