Nuovi Metodi Localizzano e Sopprimono la Tossicità nei Modelli Linguistici
Gli scienziati hanno presentato Meow2X e TRNE, due framework innovativi che individuano la tossicità all'interno di specifici strati e neuroni di grandi modelli linguistici esaminando le differenze di attivazione tra prompt tossici e neutri. La soppressione della tossicità viene ottenuta tramite scaling al momento dell'inferenza o leggere regolazioni di peso di rango uno, evitando la discesa del gradiente. Le valutazioni condotte su cinque modelli linguistici, due benchmark e 90 configurazioni utilizzando due valutatori di sicurezza dimostrano una riduzione affidabile della tossicità mantenendo la qualità della modellazione linguistica. L'analisi indica che i primi strati MLP codificano in modo sproporzionato la tossicità, che differisce tra le architetture, ed è spesso sottovalutata da valutazioni che si basano su un singolo valutatore.
Fatti principali
- Meow2X e TRNE sono framework che non richiedono riaddestramento
- Localizzano la tossicità in strati e neuroni specifici
- Sopprimono tramite scaling al momento dell'inferenza o modifiche di peso di rango uno
- Valutati su cinque modelli linguistici, due benchmark, 90 configurazioni
- Utilizzati due valutatori di sicurezza
- La tossicità è concentrata nei primi strati MLP
- Configurazioni con singolo valutatore sottostimano la tossicità
- Non richiedono discesa del gradiente
Entità
Istituzioni
- arXiv