ARTFEED — Contemporary Art Intelligence

Toeplitz MLP Mixer: Modello Sequenziale Efficiente con Complessità Lineare

ai-technology · 2026-05-11

Una nuova architettura chiamata Toeplitz MLP Mixer (TMM) è stata sviluppata dai ricercatori, che sostituisce i tradizionali meccanismi di attenzione con la moltiplicazione di matrici di Toeplitz mascherate triangolarmente. Questa innovazione consente una complessità temporale O(dn log n) e spaziale O(dn) durante l'addestramento, e O(dn) sia in tempo che in spazio durante il prefill dell'inferenza, superando la complessità quadratica associata all'attenzione standard. Sebbene i TMM non incorporino modulazione avanzata dell'input o mantenimento dello stato, dimostrano una maggiore efficienza di addestramento in termini di perdita per calcolo e memoria del dispositivo. Inoltre, sono in grado di trattenere più informazioni in input, risultando in migliori prestazioni di copia e un migliore recupero delle informazioni. L'articolo completo è disponibile su arXiv.

Fatti principali

  • Toeplitz MLP Mixer (TMM) è introdotto come un'architettura simile a un trasformatore.
  • TMM sostituisce l'attenzione con la moltiplicazione di matrici di Toeplitz mascherate triangolarmente.
  • Complessità di addestramento: tempo O(dn log n) e spazio O(dn).
  • Complessità di prefill dell'inferenza: tempo e spazio O(dn).
  • I TMM mancano di modulazione sofisticata dell'input o mantenimento dello stato.
  • I TMM producono una maggiore efficienza di addestramento in termini di perdita per calcolo e memoria del dispositivo.
  • I TMM trattengono più informazioni in input e hanno una migliore capacità di copia.
  • Articolo disponibile su arXiv con ID 2605.06683.

Entità

Istituzioni

  • arXiv

Fonti