ARTFEED — Contemporary Art Intelligence

Il Benchmark DialToM Rivela che gli LLM Faticano nella Previsione Sociale

ai-technology · 2026-04-24

DialToM è stato sviluppato dai ricercatori come un benchmark verificato dall'uomo, derivato da conversazioni umane autentiche, per valutare la Teoria della Mente (ToM) nei Modelli Linguistici di Grandi Dimensioni (LLM). Questo benchmark utilizza un formato a scelta multipla per valutare sia la ToM Letterale, che si concentra sulle previsioni dirette degli stati mentali, sia la ToM Funzionale, che esamina l'applicazione pratica di questi stati attraverso la Previsione Diagnostica Prospettica. Questo metodo testa la capacità dei modelli di riconoscere percorsi di dialogo coerenti con profili di stati mentali. I risultati rivelano un notevole divario di ragionamento: mentre gli LLM sono abili nel riconoscere gli stati mentali, la maggior parte, ad eccezione di Gemini 3 Pro, fatica a utilizzare questa conoscenza per prevedere interazioni sociali. Sono state osservate anche deboli somiglianze semantiche tra le inferenze umane e quelle degli LLM. Il dataset DialToM e il codice di valutazione sono pubblicamente disponibili per garantire la riproducibilità. L'articolo di ricerca è disponibile su arXiv con ID 2604.20443.

Fatti principali

  • DialToM è un benchmark verificato dall'uomo basato su dialoghi umani naturali.
  • Il benchmark utilizza un formato a scelta multipla.
  • Valuta la ToM Letterale (previsione degli stati mentali) e la ToM Funzionale (previsione delle traiettorie sociali).
  • La Previsione Diagnostica Prospettica testa i modelli sull'identificazione di traiettorie di dialogo coerenti con lo stato.
  • La maggior parte degli LLM, eccetto Gemini 3 Pro, fallisce nel prevedere traiettorie sociali nonostante eccella nell'identificazione degli stati mentali.
  • Esistono solo deboli somiglianze semantiche tra le inferenze generate dagli umani e quelle degli LLM.
  • Il dataset DialToM e il codice di valutazione sono pubblicamente disponibili.
  • L'articolo è su arXiv (ID 2604.20443).

Entità

Istituzioni

  • arXiv

Fonti