IntentVLM: Framework AI per il Riconoscimento dell'Intenzione Umana nella Robotica
Un framework video-linguistico a due stadi chiamato IntentVLM è stato creato da ricercatori per migliorare il riconoscimento dell'intenzione umana in contesti a vocabolario aperto, migliorando così le interazioni tra umani e robot. Traendo ispirazione dalla modellazione forward-inverse delle scienze cognitive, questo sistema scompone la comprensione dell'intenzione in due parti: generazione di candidati obiettivo e inferenza strutturata attraverso la selezione, che minimizza le allucinazioni nel ragionamento latente. Testato sui dataset IntentQA e Inst-IT Bench, IntentVLM ha ottenuto risultati notevoli, raggiungendo fino all'80% di accuratezza, che è il 30% in più rispetto alle prestazioni di base e paragonabile ai risultati umani. Questo framework utilizza segnali multimodali, inclusi testo e informazioni visive, per interpretare accuratamente l'intenzione dell'utente. La ricerca è documentata in un articolo disponibile su arXiv con ID 2604.24002.
Fatti principali
- IntentVLM è un framework video-linguistico a due stadi per il riconoscimento dell'intenzione umana a vocabolario aperto.
- L'approccio è ispirato alla modellazione forward-inverse nelle scienze cognitive.
- Scompone la comprensione dell'intenzione in generazione di candidati obiettivo e inferenza strutturata attraverso la selezione.
- Il sistema riduce le allucinazioni nel ragionamento latente.
- Valutato sui dataset IntentQA e Inst-IT Bench.
- Raggiunge fino all'80% di accuratezza, superando la baseline del 30%.
- Eguaglia le prestazioni umane.
- Pubblicato su arXiv con ID 2604.24002.
Entità
Istituzioni
- arXiv