Un framework bayesiano districa i bias di opinione nei LLM
I ricercatori hanno sviluppato un framework bayesiano per isolare tre bias nelle dinamiche di opinione dei LLM: bias tematico, bias di accordo e bias di ancoraggio. Applicato a dialoghi multi-step su 12 domande riguardanti cambiamento climatico, giustizia sociale e preferenze musicali, hanno scoperto che le traiettorie di opinione convergono verso un attrattore condiviso, con l'interazione e l'influenza dei bias che decadono nel tempo. L'impatto dei bias variava tra i LLM, e il fine-tuning su dichiarazioni di opinione alterava le dinamiche.
Fatti principali
- Il framework quantifica i bias tematico, di accordo e di ancoraggio
- Testato su 12 domande riguardanti cambiamento climatico, giustizia sociale, preferenze musicali
- Le traiettorie di opinione convergono verso un attrattore condiviso
- L'interazione e l'influenza dei bias decadono nel tempo
- L'impatto dei bias differisce tra i LLM
- Il fine-tuning su dichiarazioni di opinione influisce sulle dinamiche
Entità
Istituzioni
- arXiv