LLM Multimodale Migliora il Tempismo Conversazionale con Segnali Video e Audio
Un team di ricercatori ha introdotto MM-When2Speak, un approccio multimodale progettato per migliorare il tempismo delle conversazioni nei grandi modelli linguistici. Combinando segnali video, audio e testo sincronizzati, questo sistema trasforma il compito di determinare quando rispondere in una sfida di previsione densa. Ciò consente a un agente di scegliere tra rimanere in silenzio, dare una breve risposta o avviare una risposta completa, rispettando i limiti dello streaming. I ricercatori hanno compilato un dataset multimodale da video di conversazioni diadiche reali, garantendo che le modalità fossero temporalmente allineate e includessero annotazioni dettagliate per i tipi di reazione. I test condotti su diverse configurazioni di modalità e benchmark LLM robusti rivelano che MM-When2Speak migliora significativamente la consapevolezza del tempismo conversazionale, affrontando un problema comune affrontato dai chatbot nel fornire risposte tempestive.
Fatti principali
- MM-When2Speak è una strategia multimodale per LLM
- Sfrutta segnali video, audio e testo sincronizzati
- Il tempismo della risposta è riformulato come un compito di previsione densa del tipo di risposta
- L'agente può decidere di rimanere in silenzio, produrre una breve reazione o avviare una risposta completa
- Dataset multimodale curato da video di conversazioni diadiche reali
- Il dataset include modalità temporalmente allineate e annotazioni dettagliate dei tipi di reazione
- Esperimenti condotti su varie impostazioni di modalità e forti baseline LLM
- Affronta la difficoltà dei LLM nel sapere quando parlare in un dialogo in corso
Entità
Istituzioni
- arXiv