I LLM Mostrano un'Esplorazione-Sfruttamento Più Umana con Tracce di Pensiero

ai-technology · 2026-05-04

Un nuovo studio su arXiv confronta le strategie di esplorazione-sfruttamento di grandi modelli linguistici (LLM), umani e algoritmi multi-armed bandit (MAB) utilizzando esperimenti canonici tratti dalle scienze cognitive e dalla psichiatria. La ricerca rileva che abilitare le tracce di pensiero nei LLM—attraverso strategie di prompting e modelli di pensiero—sposta il loro comportamento decisionale verso modelli più simili a quelli umani. Lo studio impiega modelli di scelta interpretabili per catturare le strategie E&S di ciascun agente, evidenziando come i LLM possano simulare il processo decisionale sequenziale umano in condizioni di incertezza.

Fatti principali

1. Lo studio confronta LLM, umani e algoritmi MAB sul trade-off esplorazione-sfruttamento.
2. Utilizza esperimenti canonici multi-armed bandit tratti dalle scienze cognitive e dalla psichiatria.
3. Abilitare le tracce di pensiero nei LLM sposta il comportamento verso modelli più umani.
4. Modelli di scelta interpretabili catturano le strategie E&S degli agenti.
5. La ricerca appare su arXiv con ID 2505.09901.
6. Le tracce di pensiero sono abilitate tramite strategie di prompting e modelli di pensiero.
7. Focus sul processo decisionale dinamico in condizioni di incertezza.
8. I LLM sono sempre più utilizzati per simulare o automatizzare il comportamento umano.

I LLM Mostrano un'Esplorazione-Sfruttamento Più Umana con Tracce di Pensiero

Fatti principali

Entità

Istituzioni

Fonti