M2R2: Un estrattore di caratteristiche multimodale per la segmentazione temporale di azioni robotiche
I ricercatori propongono M2R2, un estrattore di caratteristiche multimodale per la segmentazione temporale di azioni (TAS) in robotica. Il modello integra dati provenienti da sensori propriocettivi ed esterocettivi, affrontando le limitazioni degli approcci esistenti che fondono le caratteristiche all'interno dei modelli, ostacolando il riutilizzo, e degli estrattori basati solo sulla visione, che falliscono in caso di scarsa visibilità degli oggetti. Una nuova strategia di addestramento consente il riutilizzo delle caratteristiche apprese in diversi modelli. Il lavoro si colloca all'intersezione tra robotica e visione artificiale, dove la TAS è fondamentale per il rilevamento dei confini delle abilità. L'articolo è disponibile su arXiv.
Fatti principali
- M2R2 è un estrattore di caratteristiche multimodale per la segmentazione temporale di azioni.
- Combina informazioni provenienti da sensori propriocettivi ed esterocettivi.
- I modelli TAS multimodali esistenti fondono le caratteristiche all'interno del modello, limitando il riutilizzo.
- Gli estrattori basati solo sulla visione hanno difficoltà quando la visibilità degli oggetti è limitata.
- Una nuova strategia di addestramento consente il riutilizzo delle caratteristiche apprese.
- La TAS è un'area di ricerca chiave in robotica e visione artificiale.
- L'articolo è disponibile su arXiv.
- L'ID arXiv è 2504.18662.
Entità
Istituzioni
- arXiv