I MLLM addestrati con istruzioni mostrano allineamento cerebrale durante la visione di film
Uno studio su arXiv (2506.08277) indaga se i modelli linguistici multimodali di grandi dimensioni addestrati con istruzioni (IT-MLLM) si allineano con l'attività cerebrale durante la visione naturalistica di film. I ricercatori hanno previsto le risposte fMRI da sei IT-MLLM video e due audio attraverso 13 istruzioni di compiti video, scoprendo che l'addestramento con istruzioni aiuta a organizzare le rappresentazioni attorno a richieste funzionali del compito piuttosto che a semantica superficiale. Il lavoro colma una lacuna nelle valutazioni precedenti che si concentravano su stimoli unimodali o modelli non addestrati con istruzioni.
Fatti principali
- Studio pubblicato su arXiv con ID 2506.08277
- Indaga i modelli linguistici multimodali di grandi dimensioni addestrati con istruzioni (IT-MLLM)
- Utilizza risposte fMRI registrate durante la visione naturalistica di film (video con audio)
- Testa sei IT-MLLM video e due audio
- Include 13 istruzioni di compiti video
- Scopre che l'addestramento con istruzioni organizza le rappresentazioni attorno a richieste funzionali del compito
- Lavori precedenti si concentravano su stimoli unimodali o modelli non addestrati con istruzioni
- Lo studio affronta l'allineamento cerebrale sotto stimoli multimodali naturalistici
Entità
Istituzioni
- arXiv