SlimDT: Trasformatore Decisionale Efficiente tramite Iniezione di RTG

ai-technology · 2026-05-09

Una nuova variante del Trasformatore Decisionale (DT), chiamata SlimDT, è stata introdotta dai ricercatori. Questo modello elimina i token Return-to-Go (RTG) dalla sequenza autoregressiva. Invece, i dati RTG vengono incorporati nelle rappresentazioni degli stati prima della modellazione sequenziale, portando a una riduzione di un terzo della lunghezza della sequenza e a una maggiore efficienza inferenziale. Nelle valutazioni sul benchmark D4RL, SlimDT supera il modello DT convenzionale.

Fatti principali

Il Trasformatore Decisionale formula l'apprendimento per rinforzo offline come modellazione sequenziale autoregressiva.
RTG è uno scalare che riassume le ricompense future, contenendo meno informazioni dei vettori di stato o azione.
Includere RTG come token separato aggiunge un costo computazionale a causa del costo quadratico dell'auto-attenzione.
SlimDT rimuove RTG dalla sequenza autoregressiva.
Le informazioni RTG vengono iniettate nelle rappresentazioni degli stati prima della modellazione sequenziale.
Il Trasformatore elabora solo una sequenza compatta (stato, azione).
La lunghezza della sequenza è ridotta di un terzo.
SlimDT supera il DT standard sul benchmark D4RL.

Entità

—

Fonti

arXiv cs.AI — 2026-05-09