Previsione Duale dello Sguardo Guidata da Testo per l'Attenzione del Conducente a Livello di Oggetto

ai-technology · 2026-04-24

I ricercatori hanno presentato un nuovo framework progettato per migliorare il modo in cui i veicoli autonomi prevedono su quali oggetti concentrare la loro attenzione. Hanno creato il dataset G-W3DA combinando un grande modello linguistico multimodale con il Segment Anything Model 3 (SAM3). Questa combinazione consente di scomporre mappe di calore più ampie in maschere specifiche a livello di oggetto utilizzando una rigorosa convalida incrociata. Questo sviluppo affronta le limitazioni dei dataset esistenti, che tipicamente forniscono solo uno sguardo globale a livello di scena. Tali limitazioni possono portare a problemi come il disaccoppiamento testo-visione e i bias visivi nei modelli linguistico-visivi (VLM). Lo studio descrive un metodo approfondito che copre tutto, dalla creazione dei dati alla progettazione del modello.

Fatti principali

arXiv:2604.20191v1
Pubblicato su arXiv
Propone un framework di previsione dello sguardo a doppio ramo
Costruisce il dataset G-W3DA
Utilizza un grande modello linguistico multimodale e SAM3
Decodifica le mappe di calore in maschere a livello di oggetto
Affronta le limitazioni dello sguardo a livello di scena
Mirato a una guida autonoma simile a quella umana

Previsione Duale dello Sguardo Guidata da Testo per l'Attenzione del Conducente a Livello di Oggetto

Fatti principali

Entità

Istituzioni

Fonti