Qwen3-VL-Seg: Segmentazione Referente in Mondo Aperto con Grounding Visione-Linguaggio
Qwen3-VL-Seg è un framework efficiente per la segmentazione referente in mondo aperto, che consiste nel collegare espressioni linguistiche non vincolate a specifiche aree a livello di pixel. Sebbene gli attuali modelli linguistici multimodali su larga scala (MLLM) eccellano nel grounding visivo in mondo aperto, sono limitati a coordinate di bounding box sparse, inadeguate per previsioni visive dettagliate. Le attuali tecniche di segmentazione basate su MLLM generano coordinate di contorno sparse, affrontando sfide con bordi di oggetti continui, oppure dipendono da modelli esterni come SAM, che introduce complessità aggiuntiva. Al contrario, Qwen3-VL-Seg utilizza la box generata dall'MLLM come prior strutturale semanticamente fondato e la traduce in segmentazione a livello di pixel attraverso un decoder di maschera leggero guidato dalla box che integra iniezione di caratteristiche spaziali multiscala e query spaziali-semantiche, puntando a una maggiore efficienza e a una ridotta complessità architetturale.
Fatti principali
- Qwen3-VL-Seg è un framework efficiente in termini di parametri per la segmentazione referente in mondo aperto.
- Collega espressioni linguistiche non vincolate a regioni a livello di pixel.
- Gli attuali MLLM sono limitati a coordinate di bounding box sparse.
- I metodi di segmentazione basati su MLLM attuali hanno difficoltà con i bordi continui degli oggetti o si affidano a modelli esterni come SAM.
- Qwen3-VL-Seg utilizza una box prevista dall'MLLM come prior strutturale.
- Un decoder di maschera leggero guidato dalla box combina iniezione di caratteristiche spaziali multiscala e query spaziali-semantiche.
- Il framework riduce il sovraccarico architetturale e di implementazione.
- L'articolo è disponibile su arXiv con ID 2605.07141.
Entità
Istituzioni
- arXiv