Miscalibrazione degli LLM nella Misurazione delle Scienze Sociali

ai-technology · 2026-05-13

Un nuovo articolo su arXiv (2605.11954) indaga la miscalibrazione nei grandi modelli linguistici utilizzati per la misurazione nelle scienze sociali. Lo studio esamina come i punteggi di confidenza di modelli come GPT-5-mini e DeepSeek-V3.2 non si allineano con l'effettiva correttezza in 14 costrutti, utilizzando un caso studio sul FOMC per mostrare che il filtraggio basato sulla confidenza può alterare le stime di regressione. Gli autori propongono la distillazione delle etichette morbide come strategia di mitigazione.

Fatti principali

L'articolo arXiv 2605.11954 studia la miscalibrazione nella misurazione delle scienze sociali basata su LLM.
Il caso studio sul FOMC mostra che il filtraggio per confidenza modifica le stime di regressione.
Valuta la calibrazione in 14 costrutti delle scienze sociali.
I modelli includono GPT-5-mini e DeepSeek-V3.2.
La confidenza riportata è scarsamente allineata con la correttezza basata sulla tolleranza.
Propone una pipeline di distillazione delle etichette morbide come mitigazione.

Miscalibrazione degli LLM nella Misurazione delle Scienze Sociali

Fatti principali

Entità

Istituzioni

Fonti