Toeplitz MLP Mixer: Modello Sequenziale Efficiente con Complessità Lineare
Una nuova architettura chiamata Toeplitz MLP Mixer (TMM) è stata sviluppata dai ricercatori, che sostituisce i tradizionali meccanismi di attenzione con la moltiplicazione di matrici di Toeplitz mascherate triangolarmente. Questa innovazione consente una complessità temporale O(dn log n) e spaziale O(dn) durante l'addestramento, e O(dn) sia in tempo che in spazio durante il prefill dell'inferenza, superando la complessità quadratica associata all'attenzione standard. Sebbene i TMM non incorporino modulazione avanzata dell'input o mantenimento dello stato, dimostrano una maggiore efficienza di addestramento in termini di perdita per calcolo e memoria del dispositivo. Inoltre, sono in grado di trattenere più informazioni in input, risultando in migliori prestazioni di copia e un migliore recupero delle informazioni. L'articolo completo è disponibile su arXiv.
Fatti principali
- Toeplitz MLP Mixer (TMM) è introdotto come un'architettura simile a un trasformatore.
- TMM sostituisce l'attenzione con la moltiplicazione di matrici di Toeplitz mascherate triangolarmente.
- Complessità di addestramento: tempo O(dn log n) e spazio O(dn).
- Complessità di prefill dell'inferenza: tempo e spazio O(dn).
- I TMM mancano di modulazione sofisticata dell'input o mantenimento dello stato.
- I TMM producono una maggiore efficienza di addestramento in termini di perdita per calcolo e memoria del dispositivo.
- I TMM trattengono più informazioni in input e hanno una migliore capacità di copia.
- Articolo disponibile su arXiv con ID 2605.06683.
Entità
Istituzioni
- arXiv