ARTFEED — Contemporary Art Intelligence

La ricerca può danneggiare le prestazioni del RL basato su modello

publication · 2026-05-25

Uno studio recente contesta la convinzione diffusa che la previsione a lungo termine e gli errori cumulativi siano le principali sfide nell'apprendimento per rinforzo basato su modello (RL). I ricercatori hanno scoperto che la ricerca non può semplicemente sostituire una politica appresa e può persino degradare le prestazioni, nonostante l'elevata accuratezza del modello. Sottolineano che ridurre il bias di sovrastima è più cruciale che migliorare l'accuratezza del modello o della funzione valore. Utilizzando il minimo da un insieme di funzioni valore, questo bias può essere efficacemente mitigato, facilitando una ricerca di successo e raggiungendo prestazioni all'avanguardia in vari domini benchmark.

Fatti principali

  • La ricerca può danneggiare le prestazioni anche con un modello altamente accurato.
  • Mitigare il bias di sovrastima è più importante dell'accuratezza del modello.
  • Prendere il minimo su un insieme di funzioni valore affronta il bias.
  • Raggiunge prestazioni all'avanguardia in molteplici domini benchmark.
  • Sfida la saggezza convenzionale sugli ostacoli del RL basato su modello.

Entità

Istituzioni

  • arXiv

Fonti