Il Grounding Visivo Generativo Migliora la Comprensione dell'EEG nei MLLM
Un nuovo framework chiamato Generative Visual Grounding (GVG) utilizza la generazione EEG-immagine per migliorare il modo in cui i modelli linguistici multimodali di grandi dimensioni (MLLM) interpretano i segnali cerebrali. Invece di allineare i dati EEG esclusivamente con il testo, GVG crea immagini proxy che forniscono un contesto visivo strutturato, consentendo ai MLLM di sfruttare le priorità visive per l'interpretazione dello stato clinico. L'approccio è stato validato su due backbone, GVG-X-Omni e GVG-Janus, con il leggero GVG-X-Omni che eguaglia i baseline allineati al testo con 1,7 miliardi di parametri, ottimizzando solo 170 milioni di parametri. La ricerca, pubblicata su arXiv (2605.18172), affronta la scarsità di dataset EEG evocati visivamente e mira a preservare le informazioni percettive a grana fine spesso perse nella traduzione solo testuale.
Fatti principali
- Il framework GVG utilizza un modello generativo EEG-immagine come traduttore visivo
- Validato sui backbone GVG-X-Omni e GVG-Janus
- GVG-X-Omni eguaglia i baseline allineati al testo con 1,7 miliardi di parametri
- Solo 170 milioni di parametri ottimizzati per GVG-X-Omni
- Affronta la scarsità di dataset EEG evocati visivamente
- Preserva le informazioni percettive a grana fine
- Pubblicato su arXiv con ID 2605.18172
- Consente l'interpretazione dello stato clinico tramite priorità visive
Entità
Istituzioni
- arXiv