ARTFEED — Contemporary Art Intelligence

Nuovi Metodi Localizzano e Sopprimono la Tossicità nei Modelli Linguistici

ai-technology · 2026-05-28

Gli scienziati hanno presentato Meow2X e TRNE, due framework innovativi che individuano la tossicità all'interno di specifici strati e neuroni di grandi modelli linguistici esaminando le differenze di attivazione tra prompt tossici e neutri. La soppressione della tossicità viene ottenuta tramite scaling al momento dell'inferenza o leggere regolazioni di peso di rango uno, evitando la discesa del gradiente. Le valutazioni condotte su cinque modelli linguistici, due benchmark e 90 configurazioni utilizzando due valutatori di sicurezza dimostrano una riduzione affidabile della tossicità mantenendo la qualità della modellazione linguistica. L'analisi indica che i primi strati MLP codificano in modo sproporzionato la tossicità, che differisce tra le architetture, ed è spesso sottovalutata da valutazioni che si basano su un singolo valutatore.

Fatti principali

  • Meow2X e TRNE sono framework che non richiedono riaddestramento
  • Localizzano la tossicità in strati e neuroni specifici
  • Sopprimono tramite scaling al momento dell'inferenza o modifiche di peso di rango uno
  • Valutati su cinque modelli linguistici, due benchmark, 90 configurazioni
  • Utilizzati due valutatori di sicurezza
  • La tossicità è concentrata nei primi strati MLP
  • Configurazioni con singolo valutatore sottostimano la tossicità
  • Non richiedono discesa del gradiente

Entità

Istituzioni

  • arXiv

Fonti