Rappresentazioni dei Transformer per la Previsione di Serie Temporali: Analisi di Interpretabilità Meccanicistica

publication · 2026-05-07

Un recente preprint su arXiv (2605.05151) esplora se i meccanismi che migliorano le capacità dei transformer in NLP siano applicabili ai dati di serie temporali. Utilizzando autoencoder sparsi (SAE) per l'interpretabilità meccanicistica, la ricerca esamina le rappresentazioni interne di PatchTST. I risultati indicano che un transformer a strato singolo e a bassa dimensionalità ottiene risultati di previsione paragonabili a modelli più complessi su benchmark standard. L'addestramento di SAE sulle attivazioni intermedie FFN post-GELU con dimensioni del dizionario tra 0,5x e 4,0x la dimensionalità nativa ha prodotto variazioni minime nelle prestazioni downstream (media 0,214%), con una parte significativa del dizionario rimasta inutilizzata. Ciò implica che la sovrapposizione—un aspetto critico delle rappresentazioni dei transformer in NLP—non è necessaria per la previsione di serie temporali, fornendo una giustificazione meccanicistica per l'efficacia di modelli lineari più semplici come DLinear.

Fatti principali

arXiv:2605.05151
Architetture transformer utilizzate per la previsione di serie temporali
Autoencoder sparsi (SAE) applicati a PatchTST
Transformer a strato singolo e stretto eguaglia configurazioni più profonde
Dimensioni del dizionario da 0,5x a 4,0x la dimensionalità nativa
Variazione media delle prestazioni dello 0,214%
La sovrapposizione non è necessaria per le serie temporali
Spiega la competitività di DLinear

Rappresentazioni dei Transformer per la Previsione di Serie Temporali: Analisi di Interpretabilità Meccanicistica

Fatti principali

Entità

Istituzioni

Fonti