Nuovi Metodi Localizzano e Sopprimono la Tossicità nei Modelli Linguistici

ai-technology · 2026-05-28

Gli scienziati hanno presentato Meow2X e TRNE, due framework innovativi che individuano la tossicità all'interno di specifici strati e neuroni di grandi modelli linguistici esaminando le differenze di attivazione tra prompt tossici e neutri. La soppressione della tossicità viene ottenuta tramite scaling al momento dell'inferenza o leggere regolazioni di peso di rango uno, evitando la discesa del gradiente. Le valutazioni condotte su cinque modelli linguistici, due benchmark e 90 configurazioni utilizzando due valutatori di sicurezza dimostrano una riduzione affidabile della tossicità mantenendo la qualità della modellazione linguistica. L'analisi indica che i primi strati MLP codificano in modo sproporzionato la tossicità, che differisce tra le architetture, ed è spesso sottovalutata da valutazioni che si basano su un singolo valutatore.

Fatti principali

Meow2X e TRNE sono framework che non richiedono riaddestramento
Localizzano la tossicità in strati e neuroni specifici
Sopprimono tramite scaling al momento dell'inferenza o modifiche di peso di rango uno
Valutati su cinque modelli linguistici, due benchmark, 90 configurazioni
Utilizzati due valutatori di sicurezza
La tossicità è concentrata nei primi strati MLP
Configurazioni con singolo valutatore sottostimano la tossicità
Non richiedono discesa del gradiente

Nuovi Metodi Localizzano e Sopprimono la Tossicità nei Modelli Linguistici

Fatti principali

Entità

Istituzioni

Fonti