IndicSafe: Valutazione della Sicurezza degli LLM in 12 Lingue Indic

ai-technology · 2026-05-18

IndicSafe ha lanciato la prima valutazione completa della sicurezza dei modelli linguistici di grandi dimensioni in 12 lingue indic, parlate da oltre 1,2 miliardi di persone. I ricercatori hanno valutato 10 LLM di spicco utilizzando 6.000 prompt culturalmente rilevanti che affrontavano temi come casta, religione, genere, salute e politica. I risultati rivelano un notevole scostamento di sicurezza, con un accordo tra le lingue di appena il 12,8% e una varianza nei tassi SAFE superiore al 17% tra le diverse lingue. Alcuni modelli tendono a rifiutare eccessivamente prompt innocui in script a basse risorse o a segnalare eccessivamente questioni politiche sensibili, mentre altri trascurano di identificare output non sicuri. La ricerca utilizza l'entropia a livello di prompt, punteggi di bias categoriali e indici di coerenza multilingue per misurare queste carenze.

Fatti principali

Prima valutazione sistematica della sicurezza degli LLM in 12 lingue indic
Lingue parlate da oltre 1,2 miliardi di persone
Dataset di 6.000 prompt culturalmente fondati
Argomenti includono casta, religione, genere, salute e politica
10 LLM leader valutati
Accordo tra le lingue è solo del 12,8%
Varianza del tasso SAFE supera il 17% tra le lingue
Alcuni modelli rifiutano eccessivamente o insufficientemente a seconda dello script linguistico

IndicSafe: Valutazione della Sicurezza degli LLM in 12 Lingue Indic

Fatti principali

Entità

Luoghi

Fonti