L'attenzione orientata alla recency migliora la previsione di serie temporali
I ricercatori propongono un meccanismo di attenzione causale orientato alla recency per i Transformer al fine di migliorare la previsione di serie temporali. L'attenzione standard dei Transformer tratta tutti i passi temporali allo stesso modo, ignorando la struttura causale e locale dei dati temporali. Il nuovo metodo ri-pesatura i punteggi di attenzione con un decadimento smooth a coda pesante, rafforzando le dipendenze locali pur mantenendo flessibilità per correlazioni a lungo raggio. Ciò allinea il Transformer più strettamente con le operazioni RNN come read, ignore e write. Gli esperimenti mostrano prestazioni competitive o superiori su benchmark di previsione impegnativi.
Fatti principali
- Il bias di recency è un priore induttivo utile per la modellazione sequenziale.
- L'attenzione standard dei Transformer manca di bias di recency a causa delle interazioni all-to-all.
- Il meccanismo proposto ri-pesatura i punteggi di attenzione con un decadimento smooth a coda pesante.
- L'aggiustamento rafforza le dipendenze temporali locali.
- Allinea il Transformer con le operazioni RNN read, ignore e write.
- L'approccio raggiunge prestazioni competitive o superiori sui benchmark di previsione di serie temporali.
- L'articolo proviene da Computer Science > Machine Learning su arXiv.
- L'ID arXiv è 2502.06151.
Entità
Istituzioni
- arXiv