MirrorBench: Un Nuovo Benchmark per l'Intelligenza Autocentrica nei MLLM
Un nuovo benchmark chiamato MirrorBench è stato sviluppato da ricercatori per valutare l'intelligenza autocentrica nei modelli linguistici multimodali di grandi dimensioni (MLLM) attraverso la simulazione. Traendo ispirazione dal test psicologico di auto-riconoscimento allo specchio (MSR), MirrorBench impiega un quadro strutturato che include compiti di complessità crescente, che vanno dalla percezione visiva di base all'auto-rappresentazione avanzata. I test condotti su importanti MLLM indicano che le loro prestazioni, anche al livello più fondamentale, sono significativamente inferiori alle capacità umane, evidenziando carenze critiche nell'autoconsapevolezza. Questo benchmark mira a colmare una lacuna nelle valutazioni esistenti, che si concentrano prevalentemente sulle interazioni con oggetti esterni. I risultati sono disponibili su arXiv con l'identificatore 2604.14785.
Fatti principali
- MirrorBench è un benchmark basato su simulazione per MLLM.
- È ispirato al test psicologico di auto-riconoscimento allo specchio (MSR).
- Il benchmark utilizza un quadro a livelli di compiti progressivamente più impegnativi.
- I compiti vanno dalla percezione visiva di base all'auto-rappresentazione di alto livello.
- Gli esperimenti mostrano che i MLLM ottengono risultati sostanzialmente peggiori degli umani anche al livello più basso.
- Il benchmark affronta la mancanza di una valutazione sistematica dell'intelligenza autocentrica.
- Gli attuali benchmark si concentrano principalmente sulla percezione e interazione con oggetti esterni.
- Lo studio è pubblicato su arXiv con l'identificatore 2604.14785.
Entità
Istituzioni
- arXiv