Il dataset MISID rivela le carenze dei MLLM nel riconoscimento di intenti strategici complessi
Il dataset MISID, recentemente lanciato, mira ad affrontare la difficoltà di interpretare l'intento umano durante interazioni complesse a più turni. Originario da giochi di strategia sociale ad alto rischio, questo dataset multimodale include più partecipanti e impiega un sistema di annotazione dettagliato a due livelli e multidimensionale per analizzare discussioni a lungo contesto e tracciare evidenze causali. È stato pubblicato su arXiv con l'identificatore arXiv:2604.12700v1. Le valutazioni dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) avanzati utilizzando MISID hanno rivelato carenze significative nella gestione di scenari complessi, come allucinazioni visive basate su testo e ragionamento cross-modale difettoso. A differenza dei tradizionali dataset per il riconoscimento degli intenti che si concentrano su dialoghi semplici, questo dataset cattura le interazioni strategiche elaborate tipiche delle situazioni del mondo reale.
Fatti principali
- MISID è un benchmark multimodale, multi-turno e multi-partecipante per il riconoscimento degli intenti
- Dataset proveniente da giochi di strategia sociale ad alto rischio
- Presenta uno schema di annotazione fine, a due livelli e multidimensionale
- Progettato per l'analisi del discorso a lungo contesto e il tracciamento causale basato su evidenze
- La valutazione sistematica rivela carenze critiche nei MLLM all'avanguardia
- Le carenze includono allucinazioni visive basate su testo e ragionamento cross-modale compromesso
- Annunciato su arXiv con l'identificatore arXiv:2604.12700v1
- Affronta il divario nella comprensione degli intenti nelle interazioni strategiche complesse
Entità
Istituzioni
- arXiv