ARTFEED — Contemporary Art Intelligence

Previsione Duale dello Sguardo Guidata da Testo per l'Attenzione del Conducente a Livello di Oggetto

ai-technology · 2026-04-24

I ricercatori hanno presentato un nuovo framework progettato per migliorare il modo in cui i veicoli autonomi prevedono su quali oggetti concentrare la loro attenzione. Hanno creato il dataset G-W3DA combinando un grande modello linguistico multimodale con il Segment Anything Model 3 (SAM3). Questa combinazione consente di scomporre mappe di calore più ampie in maschere specifiche a livello di oggetto utilizzando una rigorosa convalida incrociata. Questo sviluppo affronta le limitazioni dei dataset esistenti, che tipicamente forniscono solo uno sguardo globale a livello di scena. Tali limitazioni possono portare a problemi come il disaccoppiamento testo-visione e i bias visivi nei modelli linguistico-visivi (VLM). Lo studio descrive un metodo approfondito che copre tutto, dalla creazione dei dati alla progettazione del modello.

Fatti principali

  • arXiv:2604.20191v1
  • Pubblicato su arXiv
  • Propone un framework di previsione dello sguardo a doppio ramo
  • Costruisce il dataset G-W3DA
  • Utilizza un grande modello linguistico multimodale e SAM3
  • Decodifica le mappe di calore in maschere a livello di oggetto
  • Affronta le limitazioni dello sguardo a livello di scena
  • Mirato a una guida autonoma simile a quella umana

Entità

Istituzioni

  • arXiv

Fonti