La ricerca mostra che l'intento dannoso è rilevabile come caratteristica geometrica nei flussi residui dei modelli linguistici di grandi dimensioni

ai-technology · 2026-04-22

Uno studio dimostra che l'intento dannoso può essere identificato geometricamente all'interno dei flussi residui dei modelli linguistici di grandi dimensioni, apparendo come una direzione lineare nella maggior parte degli strati e come deviazione angolare dove i metodi di proiezione falliscono. La ricerca ha esaminato 12 modelli appartenenti a quattro famiglie architetturali—Qwen2.5, Qwen3.5, Llama-3.2 e Gemma-3—con tre varianti di allineamento: base, ottimizzato per istruzioni e abliterato. Sono state testate sei strategie di individuazione della direzione in una valutazione inglese a turno singolo. Tre metodi si sono rivelati efficaci: una direzione lineare ottimizzata con soft-AUC ha raggiunto un AUROC medio di 0,98 e un TPR@1%FPR di 0,80; una sonda a media di classe ha raggiunto 0,98 e 0,71 con costi di adattamento inferiori a 1ms; e una strategia di deviazione angolare supervisionata ha ottenuto AUROC 0,96 e TPR 0,61 lungo una direzione rappresentativamente distinta, a 73 gradi dalle soluzioni basate sulla proiezione. Questo approccio di deviazione angolare ha mantenuto in modo univoco il rilevamento negli strati intermedi dove i metodi di proiezione collassavano. La stabilità del rilevamento è persistita in tutte le varianti di allineamento, inclusi i modelli abliterati. I risultati caratterizzano la geometria dell'intento dannoso attraverso molteplici strategie analitiche, rivelando modelli direzionali distinti nelle rappresentazioni del modello.

Fatti principali

L'intento dannoso è geometricamente recuperabile dai flussi residui dei modelli linguistici di grandi dimensioni
Lo studio ha esaminato 12 modelli appartenenti a quattro famiglie architetturali: Qwen2.5, Qwen3.5, Llama-3.2, Gemma-3
Sono state testate tre varianti di allineamento: base, ottimizzato per istruzioni, abliterato
La direzione lineare ottimizzata con soft-AUC ha raggiunto un AUROC medio di 0,98 e un TPR@1%FPR di 0,80
La sonda a media di classe ha raggiunto AUROC 0,98 e TPR 0,71 con un costo di adattamento <1ms
La strategia di deviazione angolare supervisionata ha ottenuto AUROC 0,96 e TPR 0,61 lungo una direzione distinta di 73°
Il metodo di deviazione angolare ha mantenuto il rilevamento negli strati intermedi dove i metodi di proiezione collassavano
Il rilevamento è rimasto stabile in tutte le varianti di allineamento, inclusi i modelli abliterati

La ricerca mostra che l'intento dannoso è rilevabile come caratteristica geometrica nei flussi residui dei modelli linguistici di grandi dimensioni

Fatti principali

Entità

Istituzioni

Fonti