Il dataset GRASP migliora il ragionamento sociale nell'IA attraverso sguardo e gesto
Un team di ricercatori ha presentato GRASP, un ampio dataset volto a migliorare le capacità di ragionamento dei modelli linguistici multimodali di grandi dimensioni (MLLM) riguardo alle interazioni sociali in video con più individui. Il dataset comprende 290.000 coppie domanda-risposta derivate da 46.000 video, per un totale di 749 ore. È suddiviso in 16 tipologie distinte, incentrate sul ragionamento basato su sguardo, gesto e l'interazione tra sguardo e gesto. A differenza dei dataset precedenti, che enfatizzano segnali singoli o domande sociali astratte, GRASP formula domande basate su pattern di sguardo coerenti, gesti deittici e la loro integrazione in contesti sociali. Inoltre, i ricercatori introducono il Social Grounding Reward (SGR) per motivare i modelli ad analizzare i partecipanti a queste interazioni. I risultati sono disponibili su arXiv con l'identificatore 2605.15764.
Fatti principali
- Il dataset GRASP contiene 290.000 coppie domanda-risposta su 46.000 video per un totale di 749 ore.
- Utilizza una tassonomia a 16 categorie che copre sguardo, gesto e ragionamento congiunto sguardo-gesto.
- GRASP si concentra su traiettorie di sguardo coerenti con l'identità e gesti deittici.
- Il Social Grounding Reward (SGR) è un segnale di apprendimento proposto.
- Il dataset mira a migliorare il ragionamento sociale degli MLLM in video con più persone.
- Pubblicato su arXiv con l'identificatore 2605.15764.
- Le risorse precedenti si concentravano su segnali isolati o domande sociali di alto livello.
- GRASP collega domande sociali di alto livello con eventi dettagliati di sguardo e gesto.
Entità
Istituzioni
- arXiv