TailedTS: Un Benchmark per la Previsione di Serie Temporali a Coda Pesante

other · 2026-05-20

Un nuovo dataset di benchmark denominato TailedTS è stato sviluppato da ricercatori, utilizzando dati orari delle visualizzazioni di pagine Wikipedia per tutto il 2024. Questo dataset mira a valutare i modelli di previsione delle serie temporali in condizioni difficili caratterizzate da code pesanti, inflazione zero e distribuzioni non gaussiane. È composto da circa 24,69 miliardi di punti dati, coprendo circa 3 milioni di pagine Wikipedia distinte ogni mese, ed è archiviato nel formato efficiente Apache Parquet. Il traffico di Wikipedia presenta una forte distribuzione a legge di potenza, con circa il 5% delle pagine che genera oltre il 70% delle visualizzazioni totali, offrendo un ambiente rigoroso per testare la resilienza dei modelli contro fluttuazioni estreme, a differenza di dataset esistenti come M4, M5 e UCI electricity. TailedTS supporta anche vari compiti di ricerca, tra cui un framework per la quantificazione della periodicità utilizzando l'autoregressione sparsa con vincoli di sparsità e non negatività.

Fatti principali

TailedTS è un dataset di benchmark per la previsione di serie temporali a coda pesante.
Il dataset deriva dalle visualizzazioni orarie delle pagine Wikipedia durante tutto il 2024.
Contiene circa 24,69 miliardi di punti dati.
Copre circa 3 milioni di pagine Wikipedia uniche al mese.
I dati sono archiviati nel formato Apache Parquet.
Il traffico di Wikipedia segue una distribuzione a legge di potenza: il 5% delle pagine rappresenta oltre il 70% delle visualizzazioni.
Progettato per testare i modelli in condizioni di coda pesante, inflazione zero e non gaussiane.
Include un framework di quantificazione della periodicità che utilizza l'autoregressione sparsa.

TailedTS: Un Benchmark per la Previsione di Serie Temporali a Coda Pesante

Fatti principali

Entità

Istituzioni

Fonti