Framework AVISE per la valutazione della sicurezza dell'IA
È stato lanciato un nuovo framework open-source chiamato AVISE (AI Vulnerability Identification and Security Evaluation) per individuare sistematicamente le vulnerabilità e valutare la sicurezza dei sistemi e dei modelli di IA. Questo framework potenzia l'attacco Red Queen multi-turn, basato sulla teoria della mente, incorporando un attacco potenziato da un Modello Linguistico Avversario (ALM). Inoltre, presenta un Test di Valutazione della Sicurezza (SET) automatizzato progettato per scoprire vulnerabilità di jailbreak nei modelli linguistici. Il SET è composto da 25 casi di test insieme a un Modello Linguistico di Valutazione (ELM) che valuta se ogni caso ha effettivamente jailbreakato il modello target, raggiungendo una notevole accuratezza del 92% e un punteggio F1. Questa ricerca è disponibile su arXiv con l'identificatore 2604.20833.
Fatti principali
- AVISE è un framework open-source modulare per la valutazione della sicurezza dell'IA.
- Il framework estende l'attacco Red Queen in un attacco potenziato da ALM.
- Il SET include 25 casi di test per la scoperta di vulnerabilità di jailbreak.
- L'ELM raggiunge un'accuratezza del 92% nel rilevare tentativi di jailbreak.
- La ricerca è pubblicata su arXiv con ID 2604.20833.
- Il framework si rivolge a vulnerabilità nei sistemi e modelli di IA.
- L'attacco si basa su interazioni multi-turn basate sulla teoria della mente.
- Il SET è automatizzato per valutare la sicurezza dei modelli linguistici.
Entità
Istituzioni
- arXiv