GazeVLM: Visione Attiva tramite Controllo Interno dell'Attenzione per il Ragionamento Multimodale

ai-technology · 2026-05-11

Una nuova architettura di IA chiamata GazeVLM introduce la visione attiva nei modelli linguistico-visivi, consentendo al modello di controllare internamente la propria attenzione attraverso token di sguardo generati. A differenza dei tradizionali VLM che elaborano passivamente tutti i token visivi, GazeVLM dirige dinamicamente l'attenzione verso i dettagli rilevanti per il compito, sopprimendo le informazioni irrilevanti, imitando la supervisione metacognitiva umana. Questo meccanismo di attenzione top-down è incorporato direttamente nel ciclo di ragionamento, consentendo al modello di generare autonomamente token di sguardo che modificano la sua maschera di attenzione causale. L'approccio mira a ridurre le allucinazioni linguistiche e migliorare il ragionamento spaziale evitando la diluizione causata da contesti di token massicci. L'articolo è stato pubblicato su arXiv con ID 2605.07817.

Fatti principali

GazeVLM è un'architettura multimodale per modelli linguistico-visivi.
Internalizza il controllo metacognitivo sulle risorse di attenzione nel ciclo di ragionamento.
Il modello genera token di sguardo per stabilire un controllo top-down sulla sua maschera di attenzione causale.
Dettatura dinamica dell'intento focale e attivazione del bias di soppressione per attenuare le informazioni visive irrilevanti.
La visione attiva umana coinvolge attenzione top-down guidata dagli obiettivi con consapevolezza periferica.
I tradizionali VLM elaborano le informazioni visive passivamente tramite accumulo statico di token.
L'approccio mira a ridurre le allucinazioni linguistiche e migliorare il ragionamento spaziale.
L'articolo è disponibile su arXiv con ID 2605.07817.

GazeVLM: Visione Attiva tramite Controllo Interno dell'Attenzione per il Ragionamento Multimodale

Fatti principali

Entità

Istituzioni

Fonti