Il Benchmark MIRROR Rivela che i LLM Falliscono nell'Auto-Previsione
I ricercatori hanno introdotto MIRROR, un benchmark che valuta la calibrazione metacognitiva nei modelli linguistici di grandi dimensioni attraverso otto esperimenti e quattro livelli metacognitivi. Testando 16 modelli di 8 laboratori su oltre 250.000 istanze tramite cinque canali comportamentali, hanno scoperto due fenomeni chiave: l'auto-previsione compositiva fallisce universalmente, con un Errore di Calibrazione Composizionale che varia da 0,500 a 0,943 nel set originale di 15 modelli e da 0,434 a 0,758 in un'espansione bilanciata di 16 modelli, indicando che i modelli non possono prevedere le prestazioni in compiti multi-dominio. Inoltre, i modelli mostrano una conoscenza di sé specifica per dominio superiore al caso ma imperfetta, mentre persistono fallimenti sistematici. Lo studio ha implicazioni dirette per l'implementazione agentiva.
Fatti principali
- Il benchmark MIRROR valuta la calibrazione metacognitiva nei LLM
- Otto esperimenti su quattro livelli metacognitivi
- Testati 16 modelli di 8 laboratori
- Circa 250.000 istanze di valutazione
- Cinque canali di misurazione comportamentale indipendenti
- Errore di Calibrazione Composizionale da 0,500 a 0,943 nel set originale di 15 modelli
- Espansione bilanciata di 16 modelli mostra CCE da 0,434 a 0,758
- I modelli mostrano conoscenza di sé specifica per dominio superiore al caso ma imperfetta
Entità
Istituzioni
- arXiv