Studio di Ablazione del Sistema di Interazione Uomo-Robot Multimodale
Questa ricerca delinea uno studio di ablazione sistematico di un framework di interazione uomo-robot multimodale, enfatizzando tre componenti principali: il modello linguistico di grandi dimensioni per l'estrazione delle azioni, il sistema di percezione del grounding visivo e il controller di esecuzione del movimento. L'indagine valuta tre diversi modelli linguistici, cinque configurazioni per la percezione e tre tipi di controller, conducendo successivamente un'analisi fattoriale sulle opzioni con le migliori prestazioni. L'obiettivo di questo esame è determinare come le varie selezioni influenzino sia il tempo di esecuzione che i tassi di successo, fornendo spunti per futuri miglioramenti del sistema.
Fatti principali
- Lo studio estende un precedente sistema di interazione uomo-robot multimodale.
- Tre moduli vengono ablati: modello linguistico di grandi dimensioni, sistema di percezione e controller.
- Vengono confrontati tre modelli linguistici.
- Vengono confrontate cinque configurazioni di percezione.
- Vengono confrontati tre controller.
- Uno studio fattoriale di seconda fase viene condotto sui migliori candidati.
- L'analisi chiarisce quali scelte influenzano il tempo di esecuzione e il tasso di successo.
- L'obiettivo è identificare dove è probabile ottenere miglioramenti ingegneristici nelle revisioni future.
Entità
Istituzioni
- arXiv