Il Benchmark MIRROR Rivela che i LLM Falliscono nell'Auto-Previsione

ai-technology · 2026-04-24

I ricercatori hanno introdotto MIRROR, un benchmark che valuta la calibrazione metacognitiva nei modelli linguistici di grandi dimensioni attraverso otto esperimenti e quattro livelli metacognitivi. Testando 16 modelli di 8 laboratori su oltre 250.000 istanze tramite cinque canali comportamentali, hanno scoperto due fenomeni chiave: l'auto-previsione compositiva fallisce universalmente, con un Errore di Calibrazione Composizionale che varia da 0,500 a 0,943 nel set originale di 15 modelli e da 0,434 a 0,758 in un'espansione bilanciata di 16 modelli, indicando che i modelli non possono prevedere le prestazioni in compiti multi-dominio. Inoltre, i modelli mostrano una conoscenza di sé specifica per dominio superiore al caso ma imperfetta, mentre persistono fallimenti sistematici. Lo studio ha implicazioni dirette per l'implementazione agentiva.

Fatti principali

Il benchmark MIRROR valuta la calibrazione metacognitiva nei LLM
Otto esperimenti su quattro livelli metacognitivi
Testati 16 modelli di 8 laboratori
Circa 250.000 istanze di valutazione
Cinque canali di misurazione comportamentale indipendenti
Errore di Calibrazione Composizionale da 0,500 a 0,943 nel set originale di 15 modelli
Espansione bilanciata di 16 modelli mostra CCE da 0,434 a 0,758
I modelli mostrano conoscenza di sé specifica per dominio superiore al caso ma imperfetta

Il Benchmark MIRROR Rivela che i LLM Falliscono nell'Auto-Previsione

Fatti principali

Entità

Istituzioni

Fonti