Graph Memory Transformer sostituisce FFN con un grafo di memoria appreso

ai-technology · 2026-04-29

Un nuovo studio su arXiv ha presentato il Graph Memory Transformer (GMT), un modello linguistico decoder-only che sostituisce la rete feed-forward standard (FFN) con un grafo di memoria appositamente progettato. Il GMT mantiene il meccanismo di self-attention causale ma introduce una cella di memoria che aiuta a navigare le rappresentazioni dei token utilizzando un banco di centroidi appresi collegati da una matrice di transizione diretta. Nella sua versione base, GMT v7, ciascuno dei 16 blocchi transformer presenta 128 centroidi e una matrice di archi 128x128, insieme a un routing di sorgente gravitazionale e una selezione del target condizionata dal token. Invece di recuperare valori, la cella di memoria si sposta da uno stato sorgente stimato a uno stato target di memoria. Il modello ha 82,2 milioni di parametri addestrabili e non include sottolivelli FFN densi. Puoi consultare l'articolo su arXiv con ID 2604.23862.

Fatti principali

Graph Memory Transformer (GMT) proposto su arXiv
Sostituisce il sottolivello FFN con un grafo di memoria appreso
Architettura decoder-only con self-attention causale
Cella di memoria con 128 centroidi per blocco
16 blocchi transformer nella versione base GMT v7
Matrice di archi 128x128 per blocco
82,2 milioni di parametri addestrabili
Nessun sottolivello FFN denso

Graph Memory Transformer sostituisce FFN con un grafo di memoria appreso

Fatti principali

Entità

Istituzioni

Fonti