La ricerca può danneggiare le prestazioni del RL basato su modello

publication · 2026-05-25

Uno studio recente contesta la convinzione diffusa che la previsione a lungo termine e gli errori cumulativi siano le principali sfide nell'apprendimento per rinforzo basato su modello (RL). I ricercatori hanno scoperto che la ricerca non può semplicemente sostituire una politica appresa e può persino degradare le prestazioni, nonostante l'elevata accuratezza del modello. Sottolineano che ridurre il bias di sovrastima è più cruciale che migliorare l'accuratezza del modello o della funzione valore. Utilizzando il minimo da un insieme di funzioni valore, questo bias può essere efficacemente mitigato, facilitando una ricerca di successo e raggiungendo prestazioni all'avanguardia in vari domini benchmark.

Fatti principali

La ricerca può danneggiare le prestazioni anche con un modello altamente accurato.
Mitigare il bias di sovrastima è più importante dell'accuratezza del modello.
Prendere il minimo su un insieme di funzioni valore affronta il bias.
Raggiunge prestazioni all'avanguardia in molteplici domini benchmark.
Sfida la saggezza convenzionale sugli ostacoli del RL basato su modello.

La ricerca può danneggiare le prestazioni del RL basato su modello

Fatti principali

Entità

Istituzioni

Fonti