SlimDT: Trasformatore Decisionale Efficiente tramite Iniezione di RTG
Una nuova variante del Trasformatore Decisionale (DT), chiamata SlimDT, è stata introdotta dai ricercatori. Questo modello elimina i token Return-to-Go (RTG) dalla sequenza autoregressiva. Invece, i dati RTG vengono incorporati nelle rappresentazioni degli stati prima della modellazione sequenziale, portando a una riduzione di un terzo della lunghezza della sequenza e a una maggiore efficienza inferenziale. Nelle valutazioni sul benchmark D4RL, SlimDT supera il modello DT convenzionale.
Fatti principali
- Il Trasformatore Decisionale formula l'apprendimento per rinforzo offline come modellazione sequenziale autoregressiva.
- RTG è uno scalare che riassume le ricompense future, contenendo meno informazioni dei vettori di stato o azione.
- Includere RTG come token separato aggiunge un costo computazionale a causa del costo quadratico dell'auto-attenzione.
- SlimDT rimuove RTG dalla sequenza autoregressiva.
- Le informazioni RTG vengono iniettate nelle rappresentazioni degli stati prima della modellazione sequenziale.
- Il Trasformatore elabora solo una sequenza compatta (stato, azione).
- La lunghezza della sequenza è ridotta di un terzo.
- SlimDT supera il DT standard sul benchmark D4RL.
Entità
—