ROK-FORTRESS: Nuovo Benchmark Testa la Sicurezza degli LLM in Contesti Geopolitici
Un nuovo benchmark bilingue chiamato ROK-FORTRESS è stato lanciato da ricercatori per valutare la sicurezza dei modelli linguistici di grandi dimensioni (LLM) in contesti critici di Sicurezza Nazionale e Pubblica (NSPS). Concentrandosi sulla coppia linguistica inglese-coreano e sulla relazione geopolitica USA-ROK, il benchmark utilizza una matrice di transcreazione per distinguere gli impatti della lingua dai fattori geopolitici. Valuta le intenzioni avversarie attraverso combinazioni controllate delle lingue inglese e coreana insieme a entità, istituzioni e specifiche operative statunitensi e coreane. Ogni prompt avversario è abbinato a un controparte benigna per uso duale. Disponibile su Hugging Face, questo dataset colma una lacuna nelle valutazioni di sicurezza multilingue, che spesso si basano esclusivamente su benchmark basati su traduzione privi di considerazioni geopolitiche. La ricerca offre approfondimenti empirici sull'interazione tra lingua e contesto geopolitico, ampliando l'ambito oltre le coppie linguistiche precedentemente studiate.
Fatti principali
- ROK-FORTRESS è un benchmark NSPS bilingue per la sicurezza degli LLM.
- Utilizza la coppia linguistica inglese-coreano e l'asse geopolitico USA-ROK.
- Una matrice di transcreazione separa gli effetti della lingua e del radicamento geopolitico.
- Le intenzioni avversarie vengono testate sotto combinazioni controllate di lingua ed entità.
- Ogni prompt avversario è abbinato a un prompt benigno per uso duale.
- Il dataset è disponibile pubblicamente su Hugging Face.
- Affronta le lacune nelle valutazioni di sicurezza multilingue che utilizzano benchmark basati solo su traduzione.
- Lo studio fornisce prove empiriche dell'interazione tra lingua e contesto geopolitico.
Entità
Istituzioni
- Scale AI
- Hugging Face
- arXiv
Luoghi
- United States
- South Korea