Previsione Duale dello Sguardo Guidata da Testo per l'Attenzione del Conducente a Livello di Oggetto
I ricercatori hanno presentato un nuovo framework progettato per migliorare il modo in cui i veicoli autonomi prevedono su quali oggetti concentrare la loro attenzione. Hanno creato il dataset G-W3DA combinando un grande modello linguistico multimodale con il Segment Anything Model 3 (SAM3). Questa combinazione consente di scomporre mappe di calore più ampie in maschere specifiche a livello di oggetto utilizzando una rigorosa convalida incrociata. Questo sviluppo affronta le limitazioni dei dataset esistenti, che tipicamente forniscono solo uno sguardo globale a livello di scena. Tali limitazioni possono portare a problemi come il disaccoppiamento testo-visione e i bias visivi nei modelli linguistico-visivi (VLM). Lo studio descrive un metodo approfondito che copre tutto, dalla creazione dei dati alla progettazione del modello.
Fatti principali
- arXiv:2604.20191v1
- Pubblicato su arXiv
- Propone un framework di previsione dello sguardo a doppio ramo
- Costruisce il dataset G-W3DA
- Utilizza un grande modello linguistico multimodale e SAM3
- Decodifica le mappe di calore in maschere a livello di oggetto
- Affronta le limitazioni dello sguardo a livello di scena
- Mirato a una guida autonoma simile a quella umana
Entità
Istituzioni
- arXiv