Il bias geopolitico nei LLM origina nel post-addestramento, non nel pre-addestramento

ai-technology · 2026-05-25

Uno studio recente pubblicato su arXiv (2605.23825) ha esaminato sette coppie di LLM open-weight—modelli base (solo pre-addestramento) e modelli chat (pre-addestramento più post-addestramento)—provenienti da sette diversi laboratori. Utilizzando un test a scelta forzata con scenari accoppiati, l'analisi ha coperto 28 coppie di paesi in inglese, francese e cinese. I risultati indicano che il bias geopolitico emerge durante il post-addestramento, non nel pre-addestramento. In sei dei sette laboratori di IA, il post-addestramento ha modificato le preferenze del modello a favore del paese o della regione dello sviluppatore. In particolare, Qwen 2.5 di Alibaba ha mostrato il cambiamento più significativo: il modello base era neutrale riguardo alla favorevolezza verso la Cina (-0.15 log-odds, p=0.15), mentre la versione chat è salita a +2.91 (p<10^-4), un aumento di 18 volte nelle probabilità. Anche altri modelli hanno mostrato spostamenti di bias a seconda della lingua del prompt, sfidando la convinzione che il bias sia esclusivamente il risultato dei dati di pre-addestramento.

Fatti principali

Il bias geopolitico nei LLM origina nel post-addestramento, non nel pre-addestramento.
Sono state testate sette coppie di LLM open-weight da sette laboratori.
Il test ha utilizzato 28 coppie di paesi in inglese, francese e cinese.
Sei dei sette laboratori hanno mostrato spostamenti di bias verso il paese dello sviluppatore dopo il post-addestramento.
Qwen 2.5 di Alibaba ha mostrato lo spostamento più forte: da -0.15 a +2.91 log-odds.
L'entità dello spostamento dipende dalla lingua del prompt.
Studio pubblicato su arXiv con ID 2605.23825.

Il bias geopolitico nei LLM origina nel post-addestramento, non nel pre-addestramento

Fatti principali

Entità

Istituzioni

Fonti