CLAMP: Framework di Pre-addestramento 3D per la Manipolazione Robotica

ai-technology · 2026-05-01

Un nuovo framework chiamato CLAMP (Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining) è stato sviluppato da ricercatori per migliorare le rappresentazioni 3D per la manipolazione robotica utilizzando nuvole di punti e azioni robotiche. A differenza dei metodi tradizionali che dipendono da immagini 2D, CLAMP integra nuvole di punti derivate da immagini RGB-D insieme agli estrinseci della fotocamera. Quindi, ri-renderizza immagini multi-vista a quattro canali che includono profondità e coordinate 3D, con prospettive dinamiche del polso. Questo approccio consente una migliore visibilità degli oggetti target, facilitando compiti di alta precisione. Attraverso l'apprendimento contrastivo, gli encoder pre-addestrati stabiliscono collegamenti tra dati geometrici e posizionali 3D e schemi di azione robotica. Questa ricerca è disponibile su arXiv (2602.00937v2).

Fatti principali

CLAMP è un framework di pre-addestramento 3D per la manipolazione robotica.
Utilizza nuvole di punti e azioni robotiche.
Ri-renderizza immagini multi-vista a quattro canali con profondità e coordinate 3D.
Include viste dinamiche del polso per compiti di alta precisione.
Gli encoder pre-addestrati utilizzano l'apprendimento contrastivo.
Pubblicato su arXiv con ID 2602.00937v2.
Affronta le limitazioni delle rappresentazioni di immagini 2D.
Cattura informazioni spaziali 3D su oggetti e scene.

CLAMP: Framework di Pre-addestramento 3D per la Manipolazione Robotica

Fatti principali

Entità

Istituzioni

Fonti