La previsione multi-nodo migliora l'addestramento delle politiche neurali per il routing
Una nuova strategia di addestramento chiamata Multi-node Lookahead Prediction (MnLP) migliora le politiche neurali per i problemi di routing dei veicoli. I metodi di addestramento attuali si concentrano sulla previsione del nodo successivo, portando a decisioni miopi. MnLP estende l'apprendimento supervisionato per prevedere simultaneamente più nodi futuri, utilizzando moduli causali e scartabili che operano solo durante l'addestramento. Questo approccio preserva l'efficienza in fase di inferenza, consentendo al contempo una comprensione contestuale a lungo raggio. Gli esperimenti mostrano che MnLP supera i metodi di addestramento esistenti.
Fatti principali
- MnLP è una nuova strategia di addestramento per le politiche neurali di routing.
- I paradigmi di addestramento attuali si concentrano sulla previsione del nodo successivo, causando decisioni miopi.
- MnLP prevede simultaneamente più nodi futuri.
- I moduli causali e scartabili di MnLP operano solo durante l'addestramento.
- MnLP preserva l'efficienza in fase di inferenza.
- La supervisione ausiliaria a profondità multipla è incorporata nella funzione di perdita.
- MnLP fornisce alle politiche neurali una comprensione contestuale a lungo raggio.
- Sperimentalmente, MnLP supera i metodi di addestramento esistenti.
Entità
—