Apprendimento per Rinforzo Profondo per il Tracciamento Autonomo Basato Solo su Rilevamenti Angolari
Uno studio recente pubblicato su arXiv presenta un nuovo approccio di apprendimento per rinforzo profondo progettato per tracciare bersagli in movimento utilizzando solo informazioni angolari. Questo framework impiega un processo decisionale di Markov basato sulla credenza che integra le conoscenze di un filtro di Kalman cubatura. Il metodo cerca di ottimizzare sia l'accuratezza delle stime di posizione del bersaglio sia l'affidabilità del filtro di Kalman attraverso un sistema di ricompensa appositamente progettato. Una deep Q-network è stata addestrata per 50.000 episodi e valutata attraverso 5.000 simulazioni Monte Carlo, confrontata con due metodologie esistenti: l'approccio perpendicolare alla direzione di rilevamento e le tecniche di massimizzazione dell'informazione di Fisher D-ottimale.
Fatti principali
- L'articolo sviluppa un controllo dell'osservatore basato su apprendimento per rinforzo profondo per il tracciamento solo angolare.
- Il problema della manovra dell'osservatore è formulato come un processo decisionale di Markov basato sulla credenza.
- Lo stato di credenza è rappresentato dal posteriore del filtro di Kalman cubatura (CKF).
- La funzione di ricompensa bilancia la distanza euclidea e la distanza di Mahalanobis.
- La ricompensa è un'interpolazione geometrica sul fronte di Pareto con β ∈ [0,1].
- La politica è implementata come deep Q-network (DQN) addestrata per 50.000 episodi.
- Valutata su 5.000 episodi Monte Carlo.
- Confrontata con l'euristica perpendicolare alla direzione di rilevamento e la massimizzazione dell'informazione di Fisher D-ottimale.
Entità
Istituzioni
- arXiv