Comportamento di Rifiuto degli LLM Rilevabile nelle Attivazioni Intermedie
Un recente articolo su arXiv (2605.28553) rivela che è possibile anticipare il comportamento di rifiuto nei modelli linguistici di grandi dimensioni analizzando le attivazioni intermedie prima della decodifica. I ricercatori hanno utilizzato sonde lineari sulle attivazioni del flusso residuo di ciascun blocco transformer, scoprendo che il rifiuto può essere decodificato linearmente molto prima dell'ultimo strato, suggerendo che le rappresentazioni legate alla sicurezza sono presenti prima della generazione dell'output. Hanno proposto Mechanistic AutoDAN, una variante di AutoDAN che utilizza la guida tramite sonda, sostituendo le valutazioni complete del modello con passaggi in avanti parziali e punteggi basati su sonda all'interno di un ciclo di ricerca genetica di prompt. Questo approccio raggiunge tassi di successo degli attacchi competitivi rispetto all'AutoDAN tradizionale, riducendo il tempo di ricerca per iterazione fino al 72%. Inoltre, i prompt guidati da sonda spesso eguagliano o superano il trasferimento cross-modello di AutoDAN in varie configurazioni, con l'efficacia della guida tramite sonda che aumenta con la dimensione del modello e la forza dell'allineamento di sicurezza.
Fatti principali
- Il comportamento di rifiuto è linearmente decodificabile dalle attivazioni intermedie degli LLM prima dell'ultimo strato.
- Mechanistic AutoDAN utilizza punteggi guidati da sonda per sostituire la valutazione completa del modello.
- I tassi di successo degli attacchi sono competitivi con AutoDAN standard.
- Il tempo di ricerca per iterazione è ridotto fino al 72%.
- I prompt guidati da sonda eguagliano o superano il trasferimento cross-modello di AutoDAN.
- L'utilità della guida tramite sonda aumenta con la dimensione del modello e la forza dell'allineamento di sicurezza.
- La ricerca è condotta nell'articolo arXiv 2605.28553.
- Il metodo utilizza sonde lineari sulle attivazioni del flusso residuo in ciascun blocco transformer.
Entità
Istituzioni
- arXiv