ARTFEED — Contemporary Art Intelligence

IndicSafe: Valutazione della Sicurezza degli LLM in 12 Lingue Indic

ai-technology · 2026-05-18

IndicSafe ha lanciato la prima valutazione completa della sicurezza dei modelli linguistici di grandi dimensioni in 12 lingue indic, parlate da oltre 1,2 miliardi di persone. I ricercatori hanno valutato 10 LLM di spicco utilizzando 6.000 prompt culturalmente rilevanti che affrontavano temi come casta, religione, genere, salute e politica. I risultati rivelano un notevole scostamento di sicurezza, con un accordo tra le lingue di appena il 12,8% e una varianza nei tassi SAFE superiore al 17% tra le diverse lingue. Alcuni modelli tendono a rifiutare eccessivamente prompt innocui in script a basse risorse o a segnalare eccessivamente questioni politiche sensibili, mentre altri trascurano di identificare output non sicuri. La ricerca utilizza l'entropia a livello di prompt, punteggi di bias categoriali e indici di coerenza multilingue per misurare queste carenze.

Fatti principali

  • Prima valutazione sistematica della sicurezza degli LLM in 12 lingue indic
  • Lingue parlate da oltre 1,2 miliardi di persone
  • Dataset di 6.000 prompt culturalmente fondati
  • Argomenti includono casta, religione, genere, salute e politica
  • 10 LLM leader valutati
  • Accordo tra le lingue è solo del 12,8%
  • Varianza del tasso SAFE supera il 17% tra le lingue
  • Alcuni modelli rifiutano eccessivamente o insufficientemente a seconda dello script linguistico

Entità

Luoghi

  • South Asia

Fonti