GazeVLM: Visione Attiva tramite Controllo Interno dell'Attenzione per il Ragionamento Multimodale
Una nuova architettura di IA chiamata GazeVLM introduce la visione attiva nei modelli linguistico-visivi, consentendo al modello di controllare internamente la propria attenzione attraverso token di sguardo generati. A differenza dei tradizionali VLM che elaborano passivamente tutti i token visivi, GazeVLM dirige dinamicamente l'attenzione verso i dettagli rilevanti per il compito, sopprimendo le informazioni irrilevanti, imitando la supervisione metacognitiva umana. Questo meccanismo di attenzione top-down è incorporato direttamente nel ciclo di ragionamento, consentendo al modello di generare autonomamente token di sguardo che modificano la sua maschera di attenzione causale. L'approccio mira a ridurre le allucinazioni linguistiche e migliorare il ragionamento spaziale evitando la diluizione causata da contesti di token massicci. L'articolo è stato pubblicato su arXiv con ID 2605.07817.
Fatti principali
- GazeVLM è un'architettura multimodale per modelli linguistico-visivi.
- Internalizza il controllo metacognitivo sulle risorse di attenzione nel ciclo di ragionamento.
- Il modello genera token di sguardo per stabilire un controllo top-down sulla sua maschera di attenzione causale.
- Dettatura dinamica dell'intento focale e attivazione del bias di soppressione per attenuare le informazioni visive irrilevanti.
- La visione attiva umana coinvolge attenzione top-down guidata dagli obiettivi con consapevolezza periferica.
- I tradizionali VLM elaborano le informazioni visive passivamente tramite accumulo statico di token.
- L'approccio mira a ridurre le allucinazioni linguistiche e migliorare il ragionamento spaziale.
- L'articolo è disponibile su arXiv con ID 2605.07817.
Entità
Istituzioni
- arXiv