ARTFEED — Contemporary Art Intelligence

Ruoli di Attenzione e FFN nei LVLM Disaccoppiati tramite Teoria dell'Informazione

ai-technology · 2026-05-09

Un recente articolo pubblicato su arXiv (2605.05668) introduce un quadro coeso basato sulla teoria dell'informazione e sulla geometria per esaminare i componenti interni dei grandi modelli visione-linguaggio (LVLM). Questo quadro rivela una separazione funzionale: i layer di attenzione agiscono come operatori che preservano i sottospazi, concentrandosi sulla riconfigurazione, mentre le reti feed-forward (FFN) agiscono come operatori che espandono i sottospazi, facilitando l'avanzamento semantico. I risultati sperimentali indicano che la sostituzione dei pesi di attenzione appresi porta a un calo delle prestazioni, sottolineando l'importanza dell'attenzione. Questa ricerca affronta l'assenza di una base teorica nelle precedenti tecniche di attribuzione, fornendo preziose intuizioni per l'ottimizzazione delle architetture.

Fatti principali

  • Articolo arXiv:2605.05668
  • Propone un quadro unificato basato su teoria dell'informazione e geometria
  • L'attenzione agisce come operatore che preserva i sottospazi per la riconfigurazione
  • Le FFN agiscono come operatori che espandono i sottospazi per l'innovazione semantica
  • Sostituire i pesi di attenzione appresi degrada le prestazioni
  • Il backbone del decoder è un Transformer con connessioni residue
  • Gli approcci statistici precedenti mancavano di una base teorica unificata
  • Il quadro quantifica la natura geometrica ed entropica degli aggiornamenti residui

Entità

Istituzioni

  • arXiv

Fonti