La geometria comportamentale prevede e mitiga la suscettibilità agli attacchi jailbreak tra modelli di IA
Un nuovo framework formalizza la geometria comportamentale delle popolazioni di modelli per prevedere la suscettibilità agli attacchi jailbreak e trasferire le difese in modo efficiente. Applicato a 79 modelli di 24 fornitori e 100 configurazioni di un singolo modello base, metodi semplici raggiungono un AUPRC di 0,94 per il rilevamento della suscettibilità utilizzando circa il 98% in meno di sonde rispetto alla valutazione completa. Il trasferimento di difese ottimizzate tramite geometria comportamentale supera l'assegnazione dello stesso fornitore del 2% (p=0,03) senza costi aggiuntivi di sonda. L'approccio sfrutta modelli già valutati e difesi per evitare una valutazione per configurazione poco pratica.
Fatti principali
- Il framework formalizza la geometria comportamentale delle popolazioni di modelli.
- Applicato a 79 modelli di 24 fornitori.
- Applicato a 100 configurazioni di sistema di un singolo modello base.
- AUPRC di 0,94 per il rilevamento della suscettibilità.
- Utilizza circa il 98% in meno di sonde rispetto alla valutazione completa.
- Il trasferimento tramite geometria comportamentale supera l'assegnazione dello stesso fornitore del 2% (p=0,03).
- Nessun costo aggiuntivo di sonda per il trasferimento delle difese.
- Sfrutta modelli già valutati e difesi.
Entità
—