Ruoli di Attenzione e FFN nei LVLM Disaccoppiati tramite Teoria dell'Informazione
Un recente articolo pubblicato su arXiv (2605.05668) introduce un quadro coeso basato sulla teoria dell'informazione e sulla geometria per esaminare i componenti interni dei grandi modelli visione-linguaggio (LVLM). Questo quadro rivela una separazione funzionale: i layer di attenzione agiscono come operatori che preservano i sottospazi, concentrandosi sulla riconfigurazione, mentre le reti feed-forward (FFN) agiscono come operatori che espandono i sottospazi, facilitando l'avanzamento semantico. I risultati sperimentali indicano che la sostituzione dei pesi di attenzione appresi porta a un calo delle prestazioni, sottolineando l'importanza dell'attenzione. Questa ricerca affronta l'assenza di una base teorica nelle precedenti tecniche di attribuzione, fornendo preziose intuizioni per l'ottimizzazione delle architetture.
Fatti principali
- Articolo arXiv:2605.05668
- Propone un quadro unificato basato su teoria dell'informazione e geometria
- L'attenzione agisce come operatore che preserva i sottospazi per la riconfigurazione
- Le FFN agiscono come operatori che espandono i sottospazi per l'innovazione semantica
- Sostituire i pesi di attenzione appresi degrada le prestazioni
- Il backbone del decoder è un Transformer con connessioni residue
- Gli approcci statistici precedenti mancavano di una base teorica unificata
- Il quadro quantifica la natura geometrica ed entropica degli aggiornamenti residui
Entità
Istituzioni
- arXiv