Il benchmark EmoTrans testa le dinamiche emotive nei modelli linguistici multimodali di grandi dimensioni
I ricercatori hanno introdotto EmoTrans, un benchmark progettato per valutare come i modelli linguistici multimodali di grandi dimensioni (MLLM) comprendono l'emozione come un processo dinamico piuttosto che come un riconoscimento statico. Il benchmark comprende 1.000 videoclip annotati manualmente che coprono 12 scenari del mondo reale, con oltre 3.000 coppie domanda-risposta specifiche per attività. Include quattro compiti: Rilevamento del Cambiamento Emotivo, Previsione della Transizione Emotiva, Tracciamento dello Stato Emotivo e Ragionamento sul Contesto Emotivo. Questo lavoro colma una lacuna nei benchmark esistenti, che tipicamente trattano la comprensione delle emozioni come un problema statico. Lo studio è pubblicato su arXiv con l'identificatore 2604.23348.
Fatti principali
- EmoTrans è un benchmark per valutare la comprensione delle dinamiche emotive in video multimodali.
- Contiene 1.000 videoclip accuratamente raccolti e annotati manualmente.
- Il benchmark copre 12 scenari del mondo reale.
- Fornisce oltre 3.000 coppie domanda-risposta specifiche per attività.
- Vengono introdotti quattro compiti: Rilevamento del Cambiamento Emotivo, Previsione della Transizione Emotiva, Tracciamento dello Stato Emotivo e Ragionamento sul Contesto Emotivo.
- I benchmark esistenti formulano principalmente la comprensione delle emozioni come un problema di riconoscimento statico.
- La ricerca è pubblicata su arXiv con ID 2604.23348.
- Il lavoro mira a valutare i MLLM in applicazioni come robot sociali e interazione uomo-computer.
Entità
Istituzioni
- arXiv