Trasformatore Leggero Prevede Gesti Iconici da Testo ed Emozione
Un team di ricercatori ha introdotto un modello trasformatore semplificato progettato per prevedere gesti iconici sensibili all'emozione durante il co-speech robotico. Questo modello determina sia la posizione che l'intensità dei gesti basandosi esclusivamente sul testo e sul contesto emotivo, eliminando la necessità di input audio durante l'inferenza. Supera GPT-4o nel dataset BEAT2, eccellendo sia nella classificazione del posizionamento semantico dei gesti che nella regressione dell'intensità. Inoltre, mantiene un'impronta computazionale compatta, rendendolo ideale per l'uso in tempo reale in agenti incarnati.
Fatti principali
- I gesti co-speech aumentano il coinvolgimento e migliorano la comprensione del parlato.
- La maggior parte dei sistemi robotici basati sui dati genera movimenti ritmici simili a battute, pochi integrano l'enfasi semantica.
- Il modello proposto è un trasformatore leggero.
- Deriva il posizionamento e l'intensità dei gesti iconici dal testo e dall'emozione.
- Nessun input audio è richiesto al momento dell'inferenza.
- Il modello supera GPT-4o sul dataset BEAT2.
- È computazionalmente compatto e adatto per l'implementazione in tempo reale.
- La ricerca è classificata sotto Computer Science > Robotics.
Entità
Istituzioni
- arXiv