La ricerca mostra che l'intento dannoso è rilevabile come caratteristica geometrica nei flussi residui dei modelli linguistici di grandi dimensioni
Uno studio dimostra che l'intento dannoso può essere identificato geometricamente all'interno dei flussi residui dei modelli linguistici di grandi dimensioni, apparendo come una direzione lineare nella maggior parte degli strati e come deviazione angolare dove i metodi di proiezione falliscono. La ricerca ha esaminato 12 modelli appartenenti a quattro famiglie architetturali—Qwen2.5, Qwen3.5, Llama-3.2 e Gemma-3—con tre varianti di allineamento: base, ottimizzato per istruzioni e abliterato. Sono state testate sei strategie di individuazione della direzione in una valutazione inglese a turno singolo. Tre metodi si sono rivelati efficaci: una direzione lineare ottimizzata con soft-AUC ha raggiunto un AUROC medio di 0,98 e un TPR@1%FPR di 0,80; una sonda a media di classe ha raggiunto 0,98 e 0,71 con costi di adattamento inferiori a 1ms; e una strategia di deviazione angolare supervisionata ha ottenuto AUROC 0,96 e TPR 0,61 lungo una direzione rappresentativamente distinta, a 73 gradi dalle soluzioni basate sulla proiezione. Questo approccio di deviazione angolare ha mantenuto in modo univoco il rilevamento negli strati intermedi dove i metodi di proiezione collassavano. La stabilità del rilevamento è persistita in tutte le varianti di allineamento, inclusi i modelli abliterati. I risultati caratterizzano la geometria dell'intento dannoso attraverso molteplici strategie analitiche, rivelando modelli direzionali distinti nelle rappresentazioni del modello.
Fatti principali
- L'intento dannoso è geometricamente recuperabile dai flussi residui dei modelli linguistici di grandi dimensioni
- Lo studio ha esaminato 12 modelli appartenenti a quattro famiglie architetturali: Qwen2.5, Qwen3.5, Llama-3.2, Gemma-3
- Sono state testate tre varianti di allineamento: base, ottimizzato per istruzioni, abliterato
- La direzione lineare ottimizzata con soft-AUC ha raggiunto un AUROC medio di 0,98 e un TPR@1%FPR di 0,80
- La sonda a media di classe ha raggiunto AUROC 0,98 e TPR 0,71 con un costo di adattamento <1ms
- La strategia di deviazione angolare supervisionata ha ottenuto AUROC 0,96 e TPR 0,61 lungo una direzione distinta di 73°
- Il metodo di deviazione angolare ha mantenuto il rilevamento negli strati intermedi dove i metodi di proiezione collassavano
- Il rilevamento è rimasto stabile in tutte le varianti di allineamento, inclusi i modelli abliterati
Entità
Istituzioni
- arXiv