I LLM non riescono a riprodurre l'effetto di realizzazione umano nell'assunzione di rischi
Un recente studio pubblicato su arXiv (2605.25151) indaga se i modelli linguistici di grandi dimensioni (LLM) mostrano l'effetto di realizzazione, un concetto dell'economia comportamentale che indica come le preferenze di rischio varino in base a guadagni e perdite teorici rispetto a quelli effettivi. I ricercatori hanno analizzato il comportamento degli LLM attraverso tre approcci: sensibilità ai soli prompt, decodifica lineare delle rappresentazioni interne e manipolazione causale tramite steering dell'attivazione. Mentre l'analisi basata solo sui prompt ha rivelato una sensibilità coerente alle condizioni, le tendenze direzionali osservate non si allineavano con le aspettative umane. In particolare, è stato identificato un segnale di stato di realizzazione nel layer 18 del flusso residuo di Gemma, che si generalizzava a prompt non visti. Tuttavia, lo steering di questo segnale non ha alterato in modo coerente le decisioni di rischio a valle, indicando che gli LLM potrebbero non imitare autenticamente i processi cognitivi umani in quest'area.
Fatti principali
- Lo studio testa l'effetto di realizzazione negli LLM
- Tre livelli di valutazione: solo prompt, lettura lineare, steering dell'attivazione
- I risultati solo prompt mostrano sensibilità alle condizioni ma direzione sbagliata
- Il flusso residuo di Gemma ha un segnale di stato di realizzazione al layer 18
- Il segnale si generalizza a prompt non visti
- Lo steering dell'attivazione non modifica in modo affidabile le scelte di rischio
- Il risultato nullo vale per tutte le condizioni
- Articolo su arXiv: 2605.25151
Entità
Istituzioni
- arXiv