Nuovo metodo identifica i meccanismi di rifiuto degli LLM tramite autoencoder sparsi

ai-technology · 2026-04-30

I ricercatori hanno sviluppato un nuovo pipeline che utilizza autoencoder sparsi (SAE) per analizzare il comportamento di rifiuto nei modelli linguistici di grandi dimensioni (LLM) addestrati con istruzioni. Lo studio, pubblicato su arXiv (2509.09708), esamina due modelli pubblici: Gemma-2-2B-IT e LLaMA-3.1-8B-IT. Addestrando SAE sulle attivazioni del flusso residuo, il team cerca insiemi di caratteristiche la cui ablazione fa sì che il modello passi dal rifiuto alla conformità, creando di fatto un jailbreak. Il processo in tre fasi include: (1) trovare una direzione mediatrice del rifiuto e raccogliere le caratteristiche SAE vicine; (2) filtraggio greedy per ottenere un insieme minimo; e (3) scoperta delle interazioni utilizzando una macchina a fattorizzazione per catturare le interazioni non lineari tra le caratteristiche attive. Questo approccio produce un ampio insieme di caratteristiche critiche per il jailbreak, offrendo informazioni sulle cause interne del rifiuto. Il lavoro mira a migliorare la comprensione dei meccanismi di sicurezza negli LLM.

Fatti principali

Lo studio utilizza autoencoder sparsi (SAE) addestrati sulle attivazioni del flusso residuo.
Modelli analizzati: Gemma-2-2B-IT e LLaMA-3.1-8B-IT.
Pipeline in tre fasi: Direzione di Rifiuto, Filtraggio Greedy, Scoperta delle Interazioni.
L'ablazione degli insiemi di caratteristiche identificate inverte il modello dal rifiuto alla conformità.
La macchina a fattorizzazione cattura le interazioni non lineari tra le caratteristiche.
Il pipeline produce un ampio insieme di caratteristiche critiche per il jailbreak.
Pubblicato su arXiv con ID 2509.09708.
Si concentra su LLM addestrati con istruzioni.

Nuovo metodo identifica i meccanismi di rifiuto degli LLM tramite autoencoder sparsi

Fatti principali

Entità

Istituzioni

Fonti