Scala Inversa: LLM più Capaci Producono Previsioni Peggiori sulla Crescita Superlineare

ai-technology · 2026-05-23

Un recente studio pubblicato su arXiv (2605.22672) indica che i modelli linguistici avanzati tendono a performare male nelle previsioni distribuzionali per scenari caratterizzati da crescita superlineare e potenziali cambi di regime, una situazione spesso osservata in finanza ed epidemiologia. Gli autori presentano ForecastBench-Sim (FBSim), un benchmark progettato per simulazioni prive di contaminazione, e illustrano questo fenomeno utilizzando modelli epidemici SIR sintetici insieme a un corrispondente controllo lineare. Le carenze si osservano principalmente nella coda superiore, che i modelli più sofisticati innalzano per accogliere proiezioni aggressive, mentre la coda inferiore rimane stabile. Questa tendenza è evidente anche in dataset reali riguardanti COVID-19, morbillo, mercato immobiliare e iperinflazione. Un'analisi di Llama-3.1 rivela che sia la dimensione del modello che i fattori post-addestramento contribuiscono a questa scala inversa, con l'esperienza di dominio che non riesce a migliorare in modo affidabile la calibrazione.

Fatti principali

Scala inversa nei LLM su problemi di previsione con crescita superlineare e rischio di coda
Rilasciato ForecastBench-Sim (FBSim) come benchmark privo di contaminazione
Il fallimento si concentra nella coda superiore delle previsioni distribuzionali
Replicato su dataset di COVID-19, morbillo, mercati immobiliari e iperinflazione
Lo studio su Llama-3.1 mostra che sia la scala che il post-addestramento contribuiscono all'effetto
La conoscenza di dominio non salva in modo affidabile la calibrazione

Scala Inversa: LLM più Capaci Producono Previsioni Peggiori sulla Crescita Superlineare

Fatti principali

Entità

Istituzioni

Fonti