La piattaforma AI Aymara valuta 20 LLM in diversi ambiti di sicurezza
Uno studio recente ha presentato Aymara AI, uno strumento programmatico progettato per la creazione e gestione di valutazioni di sicurezza personalizzate e basate su policy per i modelli linguistici di grandi dimensioni (LLM). Questa piattaforma converte le linee guida di sicurezza in linguaggio naturale in prompt avversari e valuta gli output del modello tramite un valutatore basato su AI convalidato rispetto a valutazioni umane. La matrice di rischio e responsabilità LLM di Aymara valuta 20 LLM disponibili in commercio in 10 aree di sicurezza pratiche. I risultati rivelano variazioni significative delle prestazioni, con punteggi medi di sicurezza che vanno dall'86,2% al 52,4%. Mentre i modelli eccellevano in aree consolidate come la disinformazione (media = 95,7%), hanno avuto difficoltà in domini più complessi come privacy e impersonificazione (media = 24,3%). Questa ricerca è disponibile su arXiv.
Fatti principali
- Aymara AI è una piattaforma programmatica per la valutazione della sicurezza degli LLM.
- La piattaforma trasforma le policy di sicurezza in linguaggio naturale in prompt avversari.
- Un valutatore basato su AI convalidato rispetto a giudizi umani valuta le risposte del modello.
- La matrice di rischio e responsabilità LLM di Aymara valuta 20 LLM disponibili in commercio.
- La valutazione copre 10 domini di sicurezza del mondo reale.
- I punteggi medi di sicurezza vanno dall'86,2% al 52,4%.
- I modelli hanno ottenuto il 95,7% nel dominio della disinformazione.
- I modelli hanno ottenuto il 24,3% nel dominio della privacy e impersonificazione.
Entità
Istituzioni
- Aymara AI
- arXiv