Geometry-Lite: Interpretare la geometria dei probe di sicurezza degli LLM
Una nuova tecnica chiamata Geometry-Lite valuta come i modelli linguistici di grandi dimensioni (LLM) distinguono tra prompt sicuri e non sicuri a vari livelli. Questo metodo traduce la rappresentazione finale del token del prompt di ogni livello in margini con segno attraverso letture del centroide, del vicinato locale e del confine lineare supervisionato. Organizza quindi i profili dei margini in base alla posizione del confine, ai cambiamenti tra i livelli e alla forma complessiva. Geometry-Lite è stato testato su nove modelli ottimizzati per istruzioni con parametri da 1,2B a 70B e su sette benchmark di sicurezza, superando i probe a livello singolo e offrendo chiare intuizioni geometriche. La ricerca esplora la discrepanza tra le forti prestazioni medie di rilevamento e la geometria di separazione, la formazione di evidenze di sicurezza attraverso i livelli e la persistenza di alcuni bias geometrici nonostante i cambiamenti nei benchmark. Il documento è disponibile su arXiv.
Fatti principali
- Geometry-Lite è un probe di sicurezza a livello di prompt per LLM.
- Mappa la rappresentazione finale del token del prompt di ogni livello a margini con segno.
- Le letture includono centroide, vicinato locale e confine lineare supervisionato.
- I profili dei margini riassumono la posizione del confine, il cambiamento tra livelli e la forma grossolana.
- Testato su nove backbone ottimizzate per istruzioni da 1,2B a 70B parametri.
- Valutato su sette benchmark di sicurezza.
- Supera i probe a livello singolo.
- Fornisce intuizioni geometriche interpretabili sulla separazione di sicurezza.
Entità
Istituzioni
- arXiv