DISC: Disaccoppiare il Linguaggio dall'Input Visivo nelle Politiche dei Robot
Un approccio innovativo chiamato DISC (Decoupling Instruction from State-Conditioned Control) affronta il problema della perdita di osservazione nelle politiche di manipolazione robotica che si basano sul linguaggio. I metodi tradizionali utilizzano parametri di rete condivisi per elaborare istruzioni e input visivi, consentendo alla rete di formare scorciatoie dalla scena all'azione, aggirando così il grounding linguistico. Al contrario, DISC impiega una iperrete per derivare l'intero insieme di parametri per una politica visuomotoria specifica del compito basata esclusivamente sull'istruzione. Questa politica generata non interagisce direttamente con il linguaggio, garantendo che la consapevolezza del compito derivi dal linguaggio e prevenendo efficacemente la perdita di osservazione. Per creare pesi di politica coerenti ad alta dimensionalità, DISC utilizza una iperrete a due stadi, incorporando l'ottimizzazione basata sul gradiente nella sua fase di raffinamento. Il documento è disponibile su arXiv con ID 2605.20856.
Fatti principali
- DISC sta per Decoupling Instruction from State-Conditioned Control.
- Affronta la perdita di osservazione nelle politiche di manipolazione condizionate dal linguaggio.
- Le politiche standard elaborano istruzioni e osservazioni attraverso parametri condivisi.
- La perdita di osservazione permette alle reti di apprendere scorciatoie scena-azione.
- DISC utilizza una iperrete per generare parametri della politica dalla sola istruzione.
- La politica generata non accede mai direttamente al linguaggio.
- Viene utilizzata una iperrete a due stadi con struttura di ottimizzazione basata sul gradiente.
- Il documento è su arXiv con ID 2605.20856.
Entità
Istituzioni
- arXiv