RLFTSim: Ottimizzazione tramite Apprendimento per Rinforzo per Simulazione Realistica del Traffico
I ricercatori hanno sviluppato RLFTSim, un framework di ottimizzazione basato sull'apprendimento per rinforzo per la simulazione del traffico multi-agente. A differenza dell'addestramento supervisionato a ciclo aperto, che non riesce a catturare le interazioni dinamiche multi-agente, RLFTSim migliora il realismo allineando le rollout del simulatore con le distribuzioni dei dati reali. Consente inoltre la controllabilità condizionata dagli obiettivi nella generazione di scenari. Il framework è istanziato su un modello di simulazione pre-addestrato con una ricompensa che bilancia fedeltà e controllabilità. Esperimenti sul Waymo Open Motion Dataset mostrano prestazioni all'avanguardia in termini di realismo. Rispetto ai metodi basati su ricerca euristica, RLFTSim richiede significativamente meno campioni grazie a un segnale di ricompensa denso e a bassa varianza.
Fatti principali
- RLFTSim utilizza l'ottimizzazione tramite apprendimento per rinforzo per la simulazione del traffico.
- L'addestramento supervisionato a ciclo aperto non riesce a catturare le interazioni dinamiche multi-agente.
- RLFTSim allinea le rollout del simulatore con le distribuzioni dei dati reali.
- Fornisce controllabilità condizionata dagli obiettivi nella generazione di scenari.
- Il framework è istanziato su un modello di simulazione pre-addestrato.
- Una ricompensa bilancia fedeltà e controllabilità.
- Gli esperimenti sono stati condotti sul Waymo Open Motion Dataset.
- RLFTSim raggiunge un realismo all'avanguardia con meno campioni rispetto ai metodi basati su ricerca euristica.
Entità
Istituzioni
- Waymo