Toeplitz MLP Mixer: Modello Sequenziale Efficiente con Complessità Lineare

ai-technology · 2026-05-11

Una nuova architettura chiamata Toeplitz MLP Mixer (TMM) è stata sviluppata dai ricercatori, che sostituisce i tradizionali meccanismi di attenzione con la moltiplicazione di matrici di Toeplitz mascherate triangolarmente. Questa innovazione consente una complessità temporale O(dn log n) e spaziale O(dn) durante l'addestramento, e O(dn) sia in tempo che in spazio durante il prefill dell'inferenza, superando la complessità quadratica associata all'attenzione standard. Sebbene i TMM non incorporino modulazione avanzata dell'input o mantenimento dello stato, dimostrano una maggiore efficienza di addestramento in termini di perdita per calcolo e memoria del dispositivo. Inoltre, sono in grado di trattenere più informazioni in input, risultando in migliori prestazioni di copia e un migliore recupero delle informazioni. L'articolo completo è disponibile su arXiv.

Fatti principali

Toeplitz MLP Mixer (TMM) è introdotto come un'architettura simile a un trasformatore.
TMM sostituisce l'attenzione con la moltiplicazione di matrici di Toeplitz mascherate triangolarmente.
Complessità di addestramento: tempo O(dn log n) e spazio O(dn).
Complessità di prefill dell'inferenza: tempo e spazio O(dn).
I TMM mancano di modulazione sofisticata dell'input o mantenimento dello stato.
I TMM producono una maggiore efficienza di addestramento in termini di perdita per calcolo e memoria del dispositivo.
I TMM trattengono più informazioni in input e hanno una migliore capacità di copia.
Articolo disponibile su arXiv con ID 2605.06683.

Toeplitz MLP Mixer: Modello Sequenziale Efficiente con Complessità Lineare

Fatti principali

Entità

Istituzioni

Fonti