Divario Sim-Realtà nella Pianificazione Decisionale Sequenziale
Un nuovo articolo su arXiv (2605.21458) studia come i pianificatori dovrebbero combinare simulatori economici ma distorti con costosi esperimenti reali in problemi decisionali sequenziali. Gli autori scompongono l'errore di valore del simulatore in uno spostamento calibrazione-deployment (identificabile tramite randomizzazione) e un residuo parametrico (non riducibile con ulteriore interazione). Mostrano che il divario di valore tra la politica ottimale del simulatore e il vero ottimo si divide in una componente locale (sugli stati visitati dalla politica implementata) e una componente di raggiungibilità (sugli stati non visitati), che rimane limitata lontano da zero sotto apprendimento passivo. Il metodo proposto, Fisher-SEP, affronta questo divario.
Fatti principali
- Articolo arXiv 2605.21458
- Studia il divario sim-realtà nella pianificazione decisionale sequenziale
- Scompone l'errore del simulatore in spostamento calibrazione-deployment e residuo parametrico
- Il divario di valore si divide in componenti locale e di raggiungibilità
- La componente di raggiungibilità rimane limitata lontano da zero sotto apprendimento passivo
- Propone il metodo Fisher-SEP
- Il simulatore è economico ma distorto; gli esperimenti reali sono imparziali ma costosi
- Pubblicato su arXiv
Entità
Istituzioni
- arXiv