ARTFEED — Contemporary Art Intelligence

Glance-or-Gaze: Framework AI per la Ricerca Visiva Adattiva

ai-technology · 2026-04-30

I ricercatori hanno introdotto Glance-or-Gaze (GoG), un sistema autonomo che fa passare i modelli multimodali estesi dalla semplice osservazione alla pianificazione visiva attiva. GoG presenta un meccanismo di Sguardo Selettivo che decide intelligentemente se concentrarsi sul contesto più ampio o su aree ad alto valore, filtrando efficacemente i dati irrilevanti prima del recupero. Per migliorare le prestazioni su query visive complesse, è stato sviluppato un metodo di addestramento a due fasi noto come Allineamento Comportamentale Riflessivo di GoG. Questo lavoro affronta le sfide poste dai limiti della conoscenza parametrica statica nei grandi modelli multimodali e dal recupero indiscriminato di intere immagini nelle metodologie potenziate dalla ricerca. L'articolo è disponibile su arXiv con ID 2601.13942.

Fatti principali

  • GoG è un framework completamente autonomo per grandi modelli multimodali.
  • Introduce un meccanismo di Sguardo Selettivo per un focus visivo adattivo.
  • Il framework passa dalla percezione passiva alla pianificazione visiva attiva.
  • Filtra le informazioni irrilevanti prima del recupero.
  • Viene utilizzata una strategia di addestramento a due fasi chiamata Allineamento Comportamentale Riflessivo di GoG.
  • L'articolo affronta i limiti della conoscenza parametrica statica nei LMM.
  • Supera i problemi del recupero indiscriminato di intere immagini.
  • L'articolo è disponibile su arXiv con ID 2601.13942.

Entità

Istituzioni

  • arXiv

Fonti