ARTFEED — Contemporary Art Intelligence

Graph Memory Transformer sostituisce FFN con un grafo di memoria appreso

ai-technology · 2026-04-29

Un nuovo studio su arXiv ha presentato il Graph Memory Transformer (GMT), un modello linguistico decoder-only che sostituisce la rete feed-forward standard (FFN) con un grafo di memoria appositamente progettato. Il GMT mantiene il meccanismo di self-attention causale ma introduce una cella di memoria che aiuta a navigare le rappresentazioni dei token utilizzando un banco di centroidi appresi collegati da una matrice di transizione diretta. Nella sua versione base, GMT v7, ciascuno dei 16 blocchi transformer presenta 128 centroidi e una matrice di archi 128x128, insieme a un routing di sorgente gravitazionale e una selezione del target condizionata dal token. Invece di recuperare valori, la cella di memoria si sposta da uno stato sorgente stimato a uno stato target di memoria. Il modello ha 82,2 milioni di parametri addestrabili e non include sottolivelli FFN densi. Puoi consultare l'articolo su arXiv con ID 2604.23862.

Fatti principali

  • Graph Memory Transformer (GMT) proposto su arXiv
  • Sostituisce il sottolivello FFN con un grafo di memoria appreso
  • Architettura decoder-only con self-attention causale
  • Cella di memoria con 128 centroidi per blocco
  • 16 blocchi transformer nella versione base GMT v7
  • Matrice di archi 128x128 per blocco
  • 82,2 milioni di parametri addestrabili
  • Nessun sottolivello FFN denso

Entità

Istituzioni

  • arXiv

Fonti