Il Framework PR-MaGIC Migliora SAM per la Segmentazione In-Contesto Senza Addestramento
È stato lanciato un nuovo framework chiamato PR-MaGIC, che sta per Prompt Refinement via Mask Decoder Gradient Flow for In-Context Segmentation, per affrontare i problemi dei modelli visivi di base come il Segment Anything Model (SAM). Nonostante alcuni progressi nella segmentazione delle immagini, SAM richiede ancora molto lavoro manuale per la creazione di prompt e necessita di addestramento aggiuntivo per usi specifici. Mentre tecniche più recenti hanno cercato di automatizzare il prompting allineando immagini di query e supporto con SAM, spesso producono prompt di qualità inferiore, portando a risultati di segmentazione peggiori a causa di discrepanze visive. PR-MaGIC migliora i prompt utilizzando il flusso di gradiente dal decoder di maschera di SAM, offrendo una soluzione che non richiede addestramento durante i test e funziona bene con i sistemi di segmentazione in-contesto esistenti, risolvendo i problemi di incoerenza visiva osservati in precedenza.
Fatti principali
- PR-MaGIC perfeziona i prompt tramite il flusso di gradiente dal decoder di maschera di SAM
- È un framework test-time senza addestramento
- Affronta le incoerenze visive tra immagini di supporto e query
- Si integra nei framework di segmentazione in-contesto
- Mira a migliorare la qualità della segmentazione senza sforzo manuale
- Si basa sul Segment Anything Model (SAM)
- Si concentra sulla segmentazione in-contesto (one/few shot)
- Annunciato su arXiv con identificatore 2604.12113v1
Entità
—