I LLM Mostrano Divari tra Osservazioni, Credenze e Azioni nel Gioco Strategico

ai-technology · 2026-05-04

Un recente studio pubblicato su arXiv (2605.00226) indica che i modelli linguistici di grandi dimensioni (LLM) come Llama 3.1, Qwen3 e gpt-oss incontrano difficoltà nel processo decisionale strategico all'interno di giochi a informazione incompleta a causa di due carenze principali. La prima è un divario osservazione-credenza: sebbene gli LLM possiedano credenze interne sugli stati nascosti del gioco più precise delle loro espressioni verbali, tali credenze sono fragili—la precisione diminuisce con ragionamenti complessi, presenta bias legati alla primacy e alla recency, e si discosta dalla coerenza bayesiana in interazioni prolungate. La seconda è un divario credenza-azione: la transizione dalle credenze interne alle azioni è inefficace, portando a scelte non ottimali. Queste intuizioni chiariscono le carenze degli LLM in ambiti come la negoziazione e la formulazione di politiche.

Fatti principali

Studio pubblicato su arXiv con ID 2605.00226
Esamina il processo decisionale degli LLM in giochi a informazione incompleta
Identifica il divario osservazione-credenza e il divario credenza-azione
Esperimenti con i modelli Llama 3.1, Qwen3 e gpt-oss
Le credenze interne sono più accurate dei resoconti verbali ma fragili
La precisione delle credenze diminuisce con ragionamenti multi-hop
Bias di primacy e recency influenzano la precisione delle credenze
Le credenze si discostano dalla coerenza bayesiana in interazioni prolungate

I LLM Mostrano Divari tra Osservazioni, Credenze e Azioni nel Gioco Strategico

Fatti principali

Entità

Istituzioni

Fonti