CLAMP: Framework di Pre-addestramento 3D per la Manipolazione Robotica
Un nuovo framework chiamato CLAMP (Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining) è stato sviluppato da ricercatori per migliorare le rappresentazioni 3D per la manipolazione robotica utilizzando nuvole di punti e azioni robotiche. A differenza dei metodi tradizionali che dipendono da immagini 2D, CLAMP integra nuvole di punti derivate da immagini RGB-D insieme agli estrinseci della fotocamera. Quindi, ri-renderizza immagini multi-vista a quattro canali che includono profondità e coordinate 3D, con prospettive dinamiche del polso. Questo approccio consente una migliore visibilità degli oggetti target, facilitando compiti di alta precisione. Attraverso l'apprendimento contrastivo, gli encoder pre-addestrati stabiliscono collegamenti tra dati geometrici e posizionali 3D e schemi di azione robotica. Questa ricerca è disponibile su arXiv (2602.00937v2).
Fatti principali
- CLAMP è un framework di pre-addestramento 3D per la manipolazione robotica.
- Utilizza nuvole di punti e azioni robotiche.
- Ri-renderizza immagini multi-vista a quattro canali con profondità e coordinate 3D.
- Include viste dinamiche del polso per compiti di alta precisione.
- Gli encoder pre-addestrati utilizzano l'apprendimento contrastivo.
- Pubblicato su arXiv con ID 2602.00937v2.
- Affronta le limitazioni delle rappresentazioni di immagini 2D.
- Cattura informazioni spaziali 3D su oggetti e scene.
Entità
Istituzioni
- arXiv