Il dataset GRASP migliora il ragionamento sociale nell'IA attraverso sguardo e gesto

ai-technology · 2026-05-18

Un team di ricercatori ha presentato GRASP, un ampio dataset volto a migliorare le capacità di ragionamento dei modelli linguistici multimodali di grandi dimensioni (MLLM) riguardo alle interazioni sociali in video con più individui. Il dataset comprende 290.000 coppie domanda-risposta derivate da 46.000 video, per un totale di 749 ore. È suddiviso in 16 tipologie distinte, incentrate sul ragionamento basato su sguardo, gesto e l'interazione tra sguardo e gesto. A differenza dei dataset precedenti, che enfatizzano segnali singoli o domande sociali astratte, GRASP formula domande basate su pattern di sguardo coerenti, gesti deittici e la loro integrazione in contesti sociali. Inoltre, i ricercatori introducono il Social Grounding Reward (SGR) per motivare i modelli ad analizzare i partecipanti a queste interazioni. I risultati sono disponibili su arXiv con l'identificatore 2605.15764.

Fatti principali

Il dataset GRASP contiene 290.000 coppie domanda-risposta su 46.000 video per un totale di 749 ore.
Utilizza una tassonomia a 16 categorie che copre sguardo, gesto e ragionamento congiunto sguardo-gesto.
GRASP si concentra su traiettorie di sguardo coerenti con l'identità e gesti deittici.
Il Social Grounding Reward (SGR) è un segnale di apprendimento proposto.
Il dataset mira a migliorare il ragionamento sociale degli MLLM in video con più persone.
Pubblicato su arXiv con l'identificatore 2605.15764.
Le risorse precedenti si concentravano su segnali isolati o domande sociali di alto livello.
GRASP collega domande sociali di alto livello con eventi dettagliati di sguardo e gesto.

Il dataset GRASP migliora il ragionamento sociale nell'IA attraverso sguardo e gesto

Fatti principali

Entità

Istituzioni

Fonti