ARTFEED — Contemporary Art Intelligence

Rappresentazioni dei Transformer per la Previsione di Serie Temporali: Analisi di Interpretabilità Meccanicistica

publication · 2026-05-07

Un recente preprint su arXiv (2605.05151) esplora se i meccanismi che migliorano le capacità dei transformer in NLP siano applicabili ai dati di serie temporali. Utilizzando autoencoder sparsi (SAE) per l'interpretabilità meccanicistica, la ricerca esamina le rappresentazioni interne di PatchTST. I risultati indicano che un transformer a strato singolo e a bassa dimensionalità ottiene risultati di previsione paragonabili a modelli più complessi su benchmark standard. L'addestramento di SAE sulle attivazioni intermedie FFN post-GELU con dimensioni del dizionario tra 0,5x e 4,0x la dimensionalità nativa ha prodotto variazioni minime nelle prestazioni downstream (media 0,214%), con una parte significativa del dizionario rimasta inutilizzata. Ciò implica che la sovrapposizione—un aspetto critico delle rappresentazioni dei transformer in NLP—non è necessaria per la previsione di serie temporali, fornendo una giustificazione meccanicistica per l'efficacia di modelli lineari più semplici come DLinear.

Fatti principali

  • arXiv:2605.05151
  • Architetture transformer utilizzate per la previsione di serie temporali
  • Autoencoder sparsi (SAE) applicati a PatchTST
  • Transformer a strato singolo e stretto eguaglia configurazioni più profonde
  • Dimensioni del dizionario da 0,5x a 4,0x la dimensionalità nativa
  • Variazione media delle prestazioni dello 0,214%
  • La sovrapposizione non è necessaria per le serie temporali
  • Spiega la competitività di DLinear

Entità

Istituzioni

  • arXiv

Fonti