SIV-Bench: Nuovo benchmark video testa i MLLM sull'interazione sociale
È stato introdotto un nuovo benchmark, denominato SIV-Bench, per valutare le capacità dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) nell'analisi dell'interazione sociale. Questo strumento innovativo si basa sulla teoria delle relazioni sociali e valuta tre abilità principali: comprensione delle scene sociali, ragionamento sugli stati sociali e previsione delle dinamiche sociali. Il benchmark comprende 2.792 videoclip unici e 5.455 coppie domanda-risposta accuratamente create. I dettagli di questa ricerca, che mira a colmare il divario nei benchmark rigorosi per l'interazione sociale, sono disponibili in una recente pubblicazione su arXiv. L'obiettivo è migliorare il modo in cui le macchine interpretano il comportamento umano e potenziare l'interazione.
Fatti principali
- SIV-Bench è un benchmark video per la comprensione dell'interazione sociale.
- Valuta i MLLM su Comprensione delle Scene Sociali, Ragionamento sugli Stati Sociali e Previsione delle Dinamiche Sociali.
- Il benchmark si basa sulla teoria delle relazioni sociali.
- Include 2.792 videoclip e 5.455 coppie domanda-risposta.
- L'articolo è disponibile su arXiv con ID 2506.05425v3.
- Il benchmark mira a colmare una lacuna nella valutazione delle capacità di interazione sociale dei MLLM.
- L'interazione sociale coinvolge segnali multimodali, stati mentali e previsione del comportamento.
- Il lavoro supporta i progressi nell'interazione uomo-macchina.
Entità
Istituzioni
- arXiv