ARTFEED — Contemporary Art Intelligence

Il Benchmark MIRROR Rivela che i LLM Falliscono nell'Auto-Previsione

ai-technology · 2026-04-24

I ricercatori hanno introdotto MIRROR, un benchmark che valuta la calibrazione metacognitiva nei modelli linguistici di grandi dimensioni attraverso otto esperimenti e quattro livelli metacognitivi. Testando 16 modelli di 8 laboratori su oltre 250.000 istanze tramite cinque canali comportamentali, hanno scoperto due fenomeni chiave: l'auto-previsione compositiva fallisce universalmente, con un Errore di Calibrazione Composizionale che varia da 0,500 a 0,943 nel set originale di 15 modelli e da 0,434 a 0,758 in un'espansione bilanciata di 16 modelli, indicando che i modelli non possono prevedere le prestazioni in compiti multi-dominio. Inoltre, i modelli mostrano una conoscenza di sé specifica per dominio superiore al caso ma imperfetta, mentre persistono fallimenti sistematici. Lo studio ha implicazioni dirette per l'implementazione agentiva.

Fatti principali

  • Il benchmark MIRROR valuta la calibrazione metacognitiva nei LLM
  • Otto esperimenti su quattro livelli metacognitivi
  • Testati 16 modelli di 8 laboratori
  • Circa 250.000 istanze di valutazione
  • Cinque canali di misurazione comportamentale indipendenti
  • Errore di Calibrazione Composizionale da 0,500 a 0,943 nel set originale di 15 modelli
  • Espansione bilanciata di 16 modelli mostra CCE da 0,434 a 0,758
  • I modelli mostrano conoscenza di sé specifica per dominio superiore al caso ma imperfetta

Entità

Istituzioni

  • arXiv

Fonti