Un framework scomposto migliora la segmentazione a vocabolario aperto
Il recentemente proposto framework, Decomposed Vision-Language Alignment, migliora la segmentazione fine-grained a vocabolario aperto scomponendo i prompt testuali in token di concetto e attributo individuali. Questa separazione facilita interazioni cross-modali uniche per ogni unità semantica. Viene introdotto un modulo Feature-Gated Cross-Attention, che produce mappe di gating specifiche per attributo per una fusione moltiplicativa, rafforzando così la semantica composizionale. Nella fase di scoring, le similarità per ogni token vengono aggregate in log-space, garantendo un matching stabile e interpretabile. Questo metodo può essere integrato negli attuali modelli di segmentazione basati su transformer e migliora la generalizzazione a coppie oggetto-attributo mai viste prima. L'articolo di ricerca è disponibile su arXiv (2605.15942).
Fatti principali
- Il framework fattorizza i prompt testuali in token di concetto e attributo.
- Un modulo Feature-Gated Cross-Attention genera mappe di gating specifiche per attributo.
- Le similarità per token vengono aggregate in log-space per il matching composizionale.
- Il metodo si integra nelle architetture di segmentazione basate su transformer esistenti.
- Migliora la generalizzazione a combinazioni mai viste di categorie di oggetti e attributi.
- L'articolo è pubblicato su arXiv con ID 2605.15942.
Entità
Istituzioni
- arXiv