Circuiti Emotivi nei Grandi Modelli Visione-Linguaggio Decodificati tramite un Framework Causale
Un nuovo framework di attribuzione causale basato su vettori di steering è stato proposto dai ricercatori per chiarire l'elaborazione emotiva dei Grandi Modelli Visione-Linguaggio (LVLM). Hanno sviluppato un dataset dedicato per esaminare un meccanismo a tre fasi noto come 'Adatta-Aggrega-Esegui'. I risultati hanno rivelato un disaccoppiamento funzionale: i segnali visivi emotivi vengono combinati negli strati intermedi utilizzando teste di attenzione specifiche per il sentimento, che vengono successivamente trasformati in output narrativo negli strati profondi tramite percorsi emotivi generali. Questa ricerca colma una lacuna critica nella comprensione di come i LVLM convertono gli input visivi in narrazioni emotive, utilizzando controfattuali visivi e analisi causale.
Fatti principali
- Framework di attribuzione causale basato su vettori di steering introdotto per i LVLM
- Dataset specializzato costruito per analizzare i circuiti emotivi
- Meccanismo a tre fasi: Adatta-Aggrega-Esegui
- Disaccoppiamento funzionale scoperto tra strati intermedi e profondi
- Gli strati intermedi aggregano i segnali visivi emotivi tramite teste di attenzione specifiche per il sentimento
- Gli strati profondi traducono i segnali in generazione narrativa attraverso percorsi emotivi generali
- Affronta la scarsità di controfattuali visivi nella comprensione delle emozioni
- Pubblicato su arXiv con ID 2605.21980
Entità
Istituzioni
- arXiv