Preisach Attention Layer: Un Nuovo Modello Sequenziale Basato sull'Isteresi
Un nuovo articolo su arXiv introduce il Preisach Attention Layer (PAL), un'architettura di modellazione sequenziale che sostituisce l'attenzione softmax con un operatore a relè binario ispirato al modello di isteresi di Preisach della fisica. PAL mantiene una pila di estremi locali come stato interno. Gli autori dimostrano che un PAL-Transformer a singolo strato con profondità O(1) è Turing-completo, mentre i transformer standard con attenzione rigida richiedono profondità O(log n). Mostrano anche che PAL e transformer calcolano classi di funzioni incomparabili: PAL calcola statistiche di intervallo storico in O(1) strati che richiedono O(log n) strati per i transformer, mentre i transformer possono eseguire recupero ad accesso casuale che PAL non può fare senza stato ausiliario. L'articolo è disponibile su arXiv con ID 2605.23603.
Fatti principali
- 1. Il Preisach Attention Layer (PAL) è una nuova architettura di modellazione sequenziale.
- 2. PAL sostituisce l'attenzione softmax con un operatore a relè binario.
- 3. L'operatore è parametrizzato da soglie di attivazione e disattivazione apprese.
- 4. PAL mantiene una pila di estremi locali come stato interno.
- 5. Un PAL-Transformer a singolo strato con profondità O(1) è Turing-completo.
- 6. I transformer standard con attenzione rigida richiedono profondità O(log n) per la completezza di Turing.
- 7. PAL calcola statistiche di intervallo storico in O(1) strati.
- 8. I transformer richiedono O(log n) strati per le statistiche di intervallo storico.
- 9. I transformer supportano il recupero ad accesso casuale che PAL non può eseguire senza stato ausiliario.
- 10. L'articolo è pubblicato su arXiv con ID 2605.23603.
Entità
Istituzioni
- arXiv