AnchorDiff: Grounding senza addestramento per MM-DiT
AnchorDiff è un approccio innovativo che elimina la necessità di addestramento nei Multi-Modal Diffusion Transformers (MM-DiT) e affronta il problema del concept leakage, che si verifica quando le tecniche basate sull'attenzione generano attivazioni sovrapposte per concetti visivamente simili. Questo metodo separa la localizzazione semantica dal raffinamento strutturale selezionando un anchor ad alta confidenza dalle mappe di attenzione concetto-immagine e diffondendolo come seed one-hot attraverso un grafo ibrido basato sull'auto-attenzione immagine-immagine. Il grafo utilizza la similarità nello spazio di output per una propagazione completa all'interno dell'oggetto e impiega un gate di attenzione per riga per minimizzare le connessioni tra oggetti diversi. Inoltre, i ricercatori presentano il Multi-Concept Confusion Dataset, che contiene immagini con più concetti simili e maschere distinte per una valutazione precisa. L'articolo è disponibile su arXiv con il riferimento 2605.26460.
Fatti principali
- AnchorDiff è un metodo di grounding senza addestramento per MM-DiT.
- Affronta il concept leakage nei metodi basati sull'attenzione.
- Il metodo seleziona un anchor ad alta confidenza dalle mappe di attenzione concetto-immagine.
- Propaga l'anchor come seed one-hot su un grafo ibrido derivato dall'auto-attenzione.
- Il grafo utilizza la similarità nello spazio di output per la propagazione all'interno dell'oggetto.
- Un gate di attenzione per riga sopprime le connessioni tra oggetti diversi.
- Il Multi-Concept Confusion Dataset contiene immagini con più concetti visivamente simili e maschere.
- L'articolo è su arXiv (2605.26460).
Entità
Istituzioni
- arXiv