Un framework scomposto migliora la segmentazione a vocabolario aperto

ai-technology · 2026-05-18

Il recentemente proposto framework, Decomposed Vision-Language Alignment, migliora la segmentazione fine-grained a vocabolario aperto scomponendo i prompt testuali in token di concetto e attributo individuali. Questa separazione facilita interazioni cross-modali uniche per ogni unità semantica. Viene introdotto un modulo Feature-Gated Cross-Attention, che produce mappe di gating specifiche per attributo per una fusione moltiplicativa, rafforzando così la semantica composizionale. Nella fase di scoring, le similarità per ogni token vengono aggregate in log-space, garantendo un matching stabile e interpretabile. Questo metodo può essere integrato negli attuali modelli di segmentazione basati su transformer e migliora la generalizzazione a coppie oggetto-attributo mai viste prima. L'articolo di ricerca è disponibile su arXiv (2605.15942).

Fatti principali

Il framework fattorizza i prompt testuali in token di concetto e attributo.
Un modulo Feature-Gated Cross-Attention genera mappe di gating specifiche per attributo.
Le similarità per token vengono aggregate in log-space per il matching composizionale.
Il metodo si integra nelle architetture di segmentazione basate su transformer esistenti.
Migliora la generalizzazione a combinazioni mai viste di categorie di oggetti e attributi.
L'articolo è pubblicato su arXiv con ID 2605.15942.

Un framework scomposto migliora la segmentazione a vocabolario aperto

Fatti principali

Entità

Istituzioni

Fonti