Il bias geopolitico nei LLM origina nel post-addestramento, non nel pre-addestramento
Uno studio recente pubblicato su arXiv (2605.23825) ha esaminato sette coppie di LLM open-weight—modelli base (solo pre-addestramento) e modelli chat (pre-addestramento più post-addestramento)—provenienti da sette diversi laboratori. Utilizzando un test a scelta forzata con scenari accoppiati, l'analisi ha coperto 28 coppie di paesi in inglese, francese e cinese. I risultati indicano che il bias geopolitico emerge durante il post-addestramento, non nel pre-addestramento. In sei dei sette laboratori di IA, il post-addestramento ha modificato le preferenze del modello a favore del paese o della regione dello sviluppatore. In particolare, Qwen 2.5 di Alibaba ha mostrato il cambiamento più significativo: il modello base era neutrale riguardo alla favorevolezza verso la Cina (-0.15 log-odds, p=0.15), mentre la versione chat è salita a +2.91 (p<10^-4), un aumento di 18 volte nelle probabilità. Anche altri modelli hanno mostrato spostamenti di bias a seconda della lingua del prompt, sfidando la convinzione che il bias sia esclusivamente il risultato dei dati di pre-addestramento.
Fatti principali
- Il bias geopolitico nei LLM origina nel post-addestramento, non nel pre-addestramento.
- Sono state testate sette coppie di LLM open-weight da sette laboratori.
- Il test ha utilizzato 28 coppie di paesi in inglese, francese e cinese.
- Sei dei sette laboratori hanno mostrato spostamenti di bias verso il paese dello sviluppatore dopo il post-addestramento.
- Qwen 2.5 di Alibaba ha mostrato lo spostamento più forte: da -0.15 a +2.91 log-odds.
- L'entità dello spostamento dipende dalla lingua del prompt.
- Studio pubblicato su arXiv con ID 2605.23825.
Entità
Istituzioni
- Alibaba
- Qwen