Il Modello Ricorrente Veloce-Lento Migliora l'Apprendimento Sequenziale a Lungo Termine
Un nuovo metodo di apprendimento automatico alterna aggiornamenti latenti ricorrenti veloci con aggiornamenti delle osservazioni lenti per migliorare la modellazione sequenziale a lungo termine. L'approccio consente strutture interne stabili che evolvono con l'input, producendo rappresentazioni coerenti e raggruppate su sequenze estese. Supera LSTM, modelli a spazio di stato e varianti di Transformer in compiti di apprendimento per rinforzo e algoritmici, in particolare nella generalizzazione fuori distribuzione. Il lavoro estende la modellazione ricorrente latente a flussi di input sequenziali, sfruttando la capacità di auto-organizzazione tra frequenze di aggiornamento.
Fatti principali
- Il metodo alterna aggiornamenti latenti ricorrenti veloci con aggiornamenti delle osservazioni lenti.
- Facilita l'apprendimento di strutture interne stabili che evolvono insieme all'input.
- Mantiene rappresentazioni coerenti e raggruppate su lunghi orizzonti temporali.
- Migliora la generalizzazione fuori distribuzione in compiti di apprendimento per rinforzo e algoritmici.
- Supera LSTM, modelli a spazio di stato e varianti di Transformer.
- Estende la modellazione ricorrente latente a flussi di input sequenziali.
- Utilizza la capacità di auto-organizzazione tra frequenze di aggiornamento.
- Pubblicato su arXiv sotto Computer Science > Machine Learning.
Entità
Istituzioni
- arXiv