ARTFEED — Contemporary Art Intelligence

La geometria comportamentale prevede e mitiga la suscettibilità agli attacchi jailbreak tra modelli di IA

ai-technology · 2026-05-27

Un nuovo framework formalizza la geometria comportamentale delle popolazioni di modelli per prevedere la suscettibilità agli attacchi jailbreak e trasferire le difese in modo efficiente. Applicato a 79 modelli di 24 fornitori e 100 configurazioni di un singolo modello base, metodi semplici raggiungono un AUPRC di 0,94 per il rilevamento della suscettibilità utilizzando circa il 98% in meno di sonde rispetto alla valutazione completa. Il trasferimento di difese ottimizzate tramite geometria comportamentale supera l'assegnazione dello stesso fornitore del 2% (p=0,03) senza costi aggiuntivi di sonda. L'approccio sfrutta modelli già valutati e difesi per evitare una valutazione per configurazione poco pratica.

Fatti principali

  • Il framework formalizza la geometria comportamentale delle popolazioni di modelli.
  • Applicato a 79 modelli di 24 fornitori.
  • Applicato a 100 configurazioni di sistema di un singolo modello base.
  • AUPRC di 0,94 per il rilevamento della suscettibilità.
  • Utilizza circa il 98% in meno di sonde rispetto alla valutazione completa.
  • Il trasferimento tramite geometria comportamentale supera l'assegnazione dello stesso fornitore del 2% (p=0,03).
  • Nessun costo aggiuntivo di sonda per il trasferimento delle difese.
  • Sfrutta modelli già valutati e difesi.

Entità

Fonti