ARTFEED — Contemporary Art Intelligence

Studio di Ablazione del Sistema di Interazione Uomo-Robot Multimodale

other · 2026-05-06

Questa ricerca delinea uno studio di ablazione sistematico di un framework di interazione uomo-robot multimodale, enfatizzando tre componenti principali: il modello linguistico di grandi dimensioni per l'estrazione delle azioni, il sistema di percezione del grounding visivo e il controller di esecuzione del movimento. L'indagine valuta tre diversi modelli linguistici, cinque configurazioni per la percezione e tre tipi di controller, conducendo successivamente un'analisi fattoriale sulle opzioni con le migliori prestazioni. L'obiettivo di questo esame è determinare come le varie selezioni influenzino sia il tempo di esecuzione che i tassi di successo, fornendo spunti per futuri miglioramenti del sistema.

Fatti principali

  • Lo studio estende un precedente sistema di interazione uomo-robot multimodale.
  • Tre moduli vengono ablati: modello linguistico di grandi dimensioni, sistema di percezione e controller.
  • Vengono confrontati tre modelli linguistici.
  • Vengono confrontate cinque configurazioni di percezione.
  • Vengono confrontati tre controller.
  • Uno studio fattoriale di seconda fase viene condotto sui migliori candidati.
  • L'analisi chiarisce quali scelte influenzano il tempo di esecuzione e il tasso di successo.
  • L'obiettivo è identificare dove è probabile ottenere miglioramenti ingegneristici nelle revisioni future.

Entità

Istituzioni

  • arXiv

Fonti