Red-Teaming dei LLM per le Campagne di Influenza Politica
Uno studio recente pubblicato su arXiv presenta un framework di red-teaming progettato per valutare il potenziale uso improprio dei modelli linguistici di grandi dimensioni (LLM) negli sforzi di influenza politica. Questa ricerca enfatizza gli LLM open-source distribuiti localmente, che sono più attraenti per gli utenti malintenzionati attenti alla privacy rispetto ai modelli solo API. Il framework valuta le Finestre di Overton (OW) degli LLM—lo spettro di opinioni politiche che un modello può articolare coerentemente su questioni controverse—e quantifica come i jailbreak di base in linguaggio naturale possano ampliare questo spettro. Analizzando oltre 30 LLM in 10 famiglie di modelli e cinque nazioni, i risultati rivelano bias consistenti nell'espressione politica: gli LLM open-source tendono a generare contenuti sui social media più orientati a sinistra. L'obiettivo è migliorare l'integrità delle informazioni individuando le vulnerabilità prima che possano essere sfruttate.
Fatti principali
- Lo studio introduce un framework di red-teaming per gli LLM.
- Si concentra sugli LLM open-source distribuiti localmente.
- Il framework misura le Finestre di Overton (OW) degli LLM.
- Le OW definiscono la gamma di opinioni politiche che un modello può esprimere.
- Semplici jailbreak in linguaggio naturale espandono la gamma delle OW.
- Sono stati valutati oltre 30 LLM provenienti da 10 famiglie di modelli.
- Sono stati testati modelli provenienti da cinque paesi di origine.
- Gli LLM open-source mostrano un bias sistematico verso sinistra nell'espressività politica.
Entità
Istituzioni
- arXiv