La geometria comportamentale prevede e mitiga la suscettibilità agli attacchi jailbreak tra modelli di IA

ai-technology · 2026-05-27

Un nuovo framework formalizza la geometria comportamentale delle popolazioni di modelli per prevedere la suscettibilità agli attacchi jailbreak e trasferire le difese in modo efficiente. Applicato a 79 modelli di 24 fornitori e 100 configurazioni di un singolo modello base, metodi semplici raggiungono un AUPRC di 0,94 per il rilevamento della suscettibilità utilizzando circa il 98% in meno di sonde rispetto alla valutazione completa. Il trasferimento di difese ottimizzate tramite geometria comportamentale supera l'assegnazione dello stesso fornitore del 2% (p=0,03) senza costi aggiuntivi di sonda. L'approccio sfrutta modelli già valutati e difesi per evitare una valutazione per configurazione poco pratica.

Fatti principali

Il framework formalizza la geometria comportamentale delle popolazioni di modelli.
Applicato a 79 modelli di 24 fornitori.
Applicato a 100 configurazioni di sistema di un singolo modello base.
AUPRC di 0,94 per il rilevamento della suscettibilità.
Utilizza circa il 98% in meno di sonde rispetto alla valutazione completa.
Il trasferimento tramite geometria comportamentale supera l'assegnazione dello stesso fornitore del 2% (p=0,03).
Nessun costo aggiuntivo di sonda per il trasferimento delle difese.
Sfrutta modelli già valutati e difesi.

Entità

—

Fonti

arXiv cs.AI — 2026-05-27