TimeRFT: Il Reinforcement Finetuning Potenzia i Modelli Fondamentali delle Serie Temporali
È stato introdotto un nuovo paradigma chiamato TimeRFT (Time series Reinforcement Finetuning) per migliorare l'adattabilità dei Modelli Fondamentali delle Serie Temporali (TSFM) per compiti di previsione downstream. I TSFM, che sfruttano il pre-addestramento su larga scala per generalizzazione ed efficienza dei dati, spesso faticano quando vengono messi a punto su compiti specifici a causa degli spostamenti della distribuzione temporale tra dati di training e test, portando a overfitting nei metodi supervisionati. Inoltre, la disponibilità variabile di dati tra i compiti sfida la generalizzazione. TimeRFT affronta questi problemi con due ricette di addestramento specifiche per il compito: un meccanismo di ricompensa temporale basato sulla qualità della previsione che valuta molteplici aspetti della previsione, e un framework di apprendimento per rinforzo che ottimizza il modello in diversi regimi di dati. L'approccio mira a migliorare robustezza e generalizzazione senza affidarsi esclusivamente al fine-tuning supervisionato.
Fatti principali
- 1. TimeRFT è un nuovo paradigma per il fine-tuning dei Modelli Fondamentali delle Serie Temporali.
- 2. I TSFM affrontano sfide dovute a spostamenti della distribuzione temporale e disponibilità variabile di dati.
- 3. Gli attuali metodi di Fine-Tuning Supervisionato (SFT) possono causare overfitting e degradare la generalizzazione.
- 4. TimeRFT utilizza un meccanismo di ricompensa temporale basato sulla qualità della previsione.
- 5. Il meccanismo di ricompensa effettua una valutazione multi-aspetto delle previsioni.
- 6. TimeRFT include due ricette di addestramento specifiche per il compito.
- 7. L'approccio è progettato per l'adattamento downstream dei TSFM.
- 8. L'articolo è disponibile su arXiv con ID 2605.00015.
Entità
Istituzioni
- arXiv