AutoRISE: Evoluzione della Strategia Guidata da Agenti per il Red-Teaming di LLM

ai-technology · 2026-04-29

AutoRISE introduce un approccio innovativo per il red-teaming automatizzato di modelli linguistici estesi, concentrandosi sull'ottimizzazione delle strategie di attacco anziché dei singoli prompt. Impiega un agente di codifica che modifica progressivamente programmi di attacco eseguibili, guidato da un obiettivo scalare e da diagnostiche specifiche per esempio provenienti da un sistema di valutazione. Ciò consente modifiche strutturali, come l'aggiunta di nuovi elementi di attacco e cambiamenti nel flusso di controllo, che vanno oltre le capacità delle tecniche a livello di prompt. Il metodo è stato testato su 11 modelli appartenenti a cinque famiglie, utilizzando sette dataset di jailbreak e due nuove suite di benchmark. AutoRISE ha ottenuto un aumento di 17,0 punti nel tasso medio di successo degli attacchi rispetto al baseline più forte su modelli non visti.

Fatti principali

1. AutoRISE cerca programmi di attacco eseguibili anziché singoli prompt.
2. Un agente di codifica modifica una strategia a ogni iterazione.
3. Un sistema di valutazione fisso assegna punteggi agli attacchi e fornisce diagnostiche.
4. Le modifiche strutturali includono nuovi componenti di attacco e alterazioni del flusso di controllo.
5. Valutato su 11 modelli di cinque famiglie.
6. Utilizzati sette dataset di jailbreak consolidati.
7. Due suite di benchmark sviluppate su insiemi di target disgiunti.
8. Migliora il tasso medio di successo degli attacchi di 17,0 punti rispetto al baseline più forte.

AutoRISE: Evoluzione della Strategia Guidata da Agenti per il Red-Teaming di LLM

Fatti principali

Entità

Istituzioni

Fonti