Geometry-Lite: Interpretare la geometria dei probe di sicurezza degli LLM

ai-technology · 2026-05-22

Una nuova tecnica chiamata Geometry-Lite valuta come i modelli linguistici di grandi dimensioni (LLM) distinguono tra prompt sicuri e non sicuri a vari livelli. Questo metodo traduce la rappresentazione finale del token del prompt di ogni livello in margini con segno attraverso letture del centroide, del vicinato locale e del confine lineare supervisionato. Organizza quindi i profili dei margini in base alla posizione del confine, ai cambiamenti tra i livelli e alla forma complessiva. Geometry-Lite è stato testato su nove modelli ottimizzati per istruzioni con parametri da 1,2B a 70B e su sette benchmark di sicurezza, superando i probe a livello singolo e offrendo chiare intuizioni geometriche. La ricerca esplora la discrepanza tra le forti prestazioni medie di rilevamento e la geometria di separazione, la formazione di evidenze di sicurezza attraverso i livelli e la persistenza di alcuni bias geometrici nonostante i cambiamenti nei benchmark. Il documento è disponibile su arXiv.

Fatti principali

Geometry-Lite è un probe di sicurezza a livello di prompt per LLM.
Mappa la rappresentazione finale del token del prompt di ogni livello a margini con segno.
Le letture includono centroide, vicinato locale e confine lineare supervisionato.
I profili dei margini riassumono la posizione del confine, il cambiamento tra livelli e la forma grossolana.
Testato su nove backbone ottimizzate per istruzioni da 1,2B a 70B parametri.
Valutato su sette benchmark di sicurezza.
Supera i probe a livello singolo.
Fornisce intuizioni geometriche interpretabili sulla separazione di sicurezza.

Geometry-Lite: Interpretare la geometria dei probe di sicurezza degli LLM

Fatti principali

Entità

Istituzioni

Fonti