StoryTR: Benchmark AI per il Recupero di Video Narrativi che Utilizza la Teoria della Mente
È stato lanciato un nuovo benchmark chiamato StoryTR per superare le carenze dei modelli esistenti di recupero di momenti video nella comprensione degli elementi narrativi. Sebbene i modelli attuali funzionino bene in compiti incentrati sull'azione, faticano a comprendere il significato degli eventi a causa della mancanza di Teoria della Mente (ToM)—la capacità di dedurre intenzioni implicite, stati mentali e relazioni causali nelle narrazioni. StoryTR è il primo benchmark di recupero di momenti video che richiede il ragionamento ToM, con 8.1k campioni da video narrativi brevi come shorts e reels. Questi video trasmettono significato attraverso segnali multimodali sfumati, dove il 'sorridere' di un personaggio può implicare 'nascondere ostilità'. Ulteriori dettagli sono disponibili in un articolo su arXiv (2604.23198).
Fatti principali
- StoryTR è il primo benchmark di recupero di momenti video che richiede il ragionamento basato sulla Teoria della Mente.
- Comprende 8.1k campioni da video narrativi brevi (shorts/reels).
- I modelli attuali possono vedere cosa sta accadendo ma non riescono a ragionare sul perché sia importante.
- La Teoria della Mente è la capacità cognitiva di inferire intenzioni implicite e stati mentali.
- I video narrativi codificano il significato attraverso sottili segnali multimodali.
- Uno sguardo accompagnato da un sospiro ha una semantica diversa rispetto al solo sguardo.
- Il benchmark insegna ai modelli a decodificare che 'sorridere' può nascondere ostilità.
- L'articolo è disponibile su arXiv con identificatore 2604.23198.
Entità
Istituzioni
- arXiv