TailedTS: Un Benchmark per la Previsione di Serie Temporali a Coda Pesante
Un nuovo dataset di benchmark denominato TailedTS è stato sviluppato da ricercatori, utilizzando dati orari delle visualizzazioni di pagine Wikipedia per tutto il 2024. Questo dataset mira a valutare i modelli di previsione delle serie temporali in condizioni difficili caratterizzate da code pesanti, inflazione zero e distribuzioni non gaussiane. È composto da circa 24,69 miliardi di punti dati, coprendo circa 3 milioni di pagine Wikipedia distinte ogni mese, ed è archiviato nel formato efficiente Apache Parquet. Il traffico di Wikipedia presenta una forte distribuzione a legge di potenza, con circa il 5% delle pagine che genera oltre il 70% delle visualizzazioni totali, offrendo un ambiente rigoroso per testare la resilienza dei modelli contro fluttuazioni estreme, a differenza di dataset esistenti come M4, M5 e UCI electricity. TailedTS supporta anche vari compiti di ricerca, tra cui un framework per la quantificazione della periodicità utilizzando l'autoregressione sparsa con vincoli di sparsità e non negatività.
Fatti principali
- TailedTS è un dataset di benchmark per la previsione di serie temporali a coda pesante.
- Il dataset deriva dalle visualizzazioni orarie delle pagine Wikipedia durante tutto il 2024.
- Contiene circa 24,69 miliardi di punti dati.
- Copre circa 3 milioni di pagine Wikipedia uniche al mese.
- I dati sono archiviati nel formato Apache Parquet.
- Il traffico di Wikipedia segue una distribuzione a legge di potenza: il 5% delle pagine rappresenta oltre il 70% delle visualizzazioni.
- Progettato per testare i modelli in condizioni di coda pesante, inflazione zero e non gaussiane.
- Include un framework di quantificazione della periodicità che utilizza l'autoregressione sparsa.
Entità
Istituzioni
- arXiv