Gli LLM Sopprimono il Gioco di Nash tramite Override Prosociale negli Strati Finali
Un team di ricercatori di un'istituzione non divulgata ha scoperto il meccanismo neurale responsabile della divergenza dei grandi modelli linguistici dall'equilibrio di Nash nei giochi strategici. Analizzando i modelli Llama-3 e Qwen2.5, che vanno da 8B a 72B parametri, hanno scoperto che il primo strato codifica la storia dell'avversario con una precisione del 96%, mentre la codifica dell'azione di Nash rimane al di sotto del 56% in tutti i 32 strati di Llama-3-8B. Sebbene il modello tenda a favorire le azioni di Nash durante la maggior parte del suo forward pass, un override prosociale negli strati finali altera questa inclinazione, risultando in un comportamento di non equilibrio. Questa ricerca offre sia approfondimenti meccanicistici che controllo causale, indicando che l'intervento nell'override degli strati finali può correggere la deviazione, gettando luce sul processo decisionale strategico negli LLM e le sue implicazioni per l'allineamento dell'IA e la teoria dei giochi.
Fatti principali
- Lo studio esamina i modelli Llama-3 e Qwen2.5 (da 8B a 72B parametri)
- Quattro giochi canonici a due giocatori utilizzati in esperimenti di self-play e cross-play
- La storia dell'avversario è codificata con una precisione del 96% al primo strato di Llama-3-8B
- La codifica dell'azione di Nash non supera mai il 56% in tutti gli strati
- Nessun modulo dedicato a Nash trovato nel modello
- L'override prosociale negli strati finali inverte la preferenza privata di Nash
- La deviazione può essere invertita tramite intervento causale sugli strati finali
- Articolo pubblicato su arXiv con ID 2604.27167
Entità
Istituzioni
- arXiv