L'Augmentazione dei Dati Basata sulla Simmetria Migliora il DDPG per il Controllo degli Aeromobili
Un articolo di ricerca disponibile su arXiv presenta una nuova tecnica di augmentazione dei dati simmetrica volta a migliorare l'efficienza del campionamento nell'apprendimento per rinforzo offline, specificamente per il controllo del tracking dell'assetto laterale in aeromobili ad ala fissa utilizzando il Deep Deterministic Policy Gradient (DDPG). Questo approccio sfrutta la simmetria presente nei Processi Decisionali di Markov (MDP) per creare campioni aumentati, ampliando così la copertura dello spazio stato-azione. Inoltre, viene introdotto un framework dual-critic, dove un secondo critico viene addestrato su questi campioni aumentati per ottimizzare ulteriormente l'uso dei campioni. La simmetria del modello dell'aeromobile viene confermata e le simulazioni indicano che l'uso di campioni aumentati porta a una convergenza più rapida della politica. Questo articolo rientra nella categoria Computer Science > Machine Learning ed è stato presentato il 15 luglio 2024.
Fatti principali
- L'articolo propone l'augmentazione simmetrica dei dati per DDPG nell'RL offline.
- Il metodo sfrutta la simmetria dei sistemi dinamici per la previsione delle transizioni di stato.
- I campioni aumentati migliorano il tasso di copertura dello spazio stato-azione.
- Introdotta una struttura dual-critic: un secondo critico addestrato su campioni aumentati.
- Il modello dell'aeromobile è verificato essere simmetrico.
- Le simulazioni di controllo del volo dimostrano una convergenza accelerata della politica.
- Articolo presentato il 15 luglio 2024.
- Categorizzato sotto Computer Science > Machine Learning.
Entità
Istituzioni
- arXiv