Circuiti Emotivi nei Grandi Modelli Visione-Linguaggio Decodificati tramite un Framework Causale

ai-technology · 2026-05-23

Un nuovo framework di attribuzione causale basato su vettori di steering è stato proposto dai ricercatori per chiarire l'elaborazione emotiva dei Grandi Modelli Visione-Linguaggio (LVLM). Hanno sviluppato un dataset dedicato per esaminare un meccanismo a tre fasi noto come 'Adatta-Aggrega-Esegui'. I risultati hanno rivelato un disaccoppiamento funzionale: i segnali visivi emotivi vengono combinati negli strati intermedi utilizzando teste di attenzione specifiche per il sentimento, che vengono successivamente trasformati in output narrativo negli strati profondi tramite percorsi emotivi generali. Questa ricerca colma una lacuna critica nella comprensione di come i LVLM convertono gli input visivi in narrazioni emotive, utilizzando controfattuali visivi e analisi causale.

Fatti principali

Framework di attribuzione causale basato su vettori di steering introdotto per i LVLM
Dataset specializzato costruito per analizzare i circuiti emotivi
Meccanismo a tre fasi: Adatta-Aggrega-Esegui
Disaccoppiamento funzionale scoperto tra strati intermedi e profondi
Gli strati intermedi aggregano i segnali visivi emotivi tramite teste di attenzione specifiche per il sentimento
Gli strati profondi traducono i segnali in generazione narrativa attraverso percorsi emotivi generali
Affronta la scarsità di controfattuali visivi nella comprensione delle emozioni
Pubblicato su arXiv con ID 2605.21980

Circuiti Emotivi nei Grandi Modelli Visione-Linguaggio Decodificati tramite un Framework Causale

Fatti principali

Entità

Istituzioni

Fonti