La ricerca può danneggiare le prestazioni del RL basato su modello
Uno studio recente contesta la convinzione diffusa che la previsione a lungo termine e gli errori cumulativi siano le principali sfide nell'apprendimento per rinforzo basato su modello (RL). I ricercatori hanno scoperto che la ricerca non può semplicemente sostituire una politica appresa e può persino degradare le prestazioni, nonostante l'elevata accuratezza del modello. Sottolineano che ridurre il bias di sovrastima è più cruciale che migliorare l'accuratezza del modello o della funzione valore. Utilizzando il minimo da un insieme di funzioni valore, questo bias può essere efficacemente mitigato, facilitando una ricerca di successo e raggiungendo prestazioni all'avanguardia in vari domini benchmark.
Fatti principali
- La ricerca può danneggiare le prestazioni anche con un modello altamente accurato.
- Mitigare il bias di sovrastima è più importante dell'accuratezza del modello.
- Prendere il minimo su un insieme di funzioni valore affronta il bias.
- Raggiunge prestazioni all'avanguardia in molteplici domini benchmark.
- Sfida la saggezza convenzionale sugli ostacoli del RL basato su modello.
Entità
Istituzioni
- arXiv