IndicSafe: Valutazione della Sicurezza degli LLM in 12 Lingue Indic
IndicSafe ha lanciato la prima valutazione completa della sicurezza dei modelli linguistici di grandi dimensioni in 12 lingue indic, parlate da oltre 1,2 miliardi di persone. I ricercatori hanno valutato 10 LLM di spicco utilizzando 6.000 prompt culturalmente rilevanti che affrontavano temi come casta, religione, genere, salute e politica. I risultati rivelano un notevole scostamento di sicurezza, con un accordo tra le lingue di appena il 12,8% e una varianza nei tassi SAFE superiore al 17% tra le diverse lingue. Alcuni modelli tendono a rifiutare eccessivamente prompt innocui in script a basse risorse o a segnalare eccessivamente questioni politiche sensibili, mentre altri trascurano di identificare output non sicuri. La ricerca utilizza l'entropia a livello di prompt, punteggi di bias categoriali e indici di coerenza multilingue per misurare queste carenze.
Fatti principali
- Prima valutazione sistematica della sicurezza degli LLM in 12 lingue indic
- Lingue parlate da oltre 1,2 miliardi di persone
- Dataset di 6.000 prompt culturalmente fondati
- Argomenti includono casta, religione, genere, salute e politica
- 10 LLM leader valutati
- Accordo tra le lingue è solo del 12,8%
- Varianza del tasso SAFE supera il 17% tra le lingue
- Alcuni modelli rifiutano eccessivamente o insufficientemente a seconda dello script linguistico
Entità
Luoghi
- South Asia