RLFSeg: Flusso Rettificato per la Segmentazione Basata su Testo
Un nuovo framework chiamato RLFSeg utilizza il Flusso Rettificato per migliorare la segmentazione delle immagini basata su testo, superando i metodi basati su diffusione. La segmentazione basata su testo consente di delineare i confini degli oggetti a partire da prompt testuali, offrendo flessibilità oltre le categorie fisse. I metodi precedenti che utilizzano modelli di diffusione come estrattori di caratteristiche ereditano nature generative dannose. RLFSeg apprende una mappatura diretta dall'immagine alla maschera di segmentazione nello spazio latente, evitando processi di rumore-denois e ottimizzazione del passo temporale. Il metodo mostra prestazioni sostanzialmente migliori, specialmente in compiti zero-shot. La ricerca è pubblicata su arXiv come paper 2605.04590.
Fatti principali
- RLFSeg utilizza il Flusso Rettificato per la segmentazione basata su testo.
- Supera i precedenti metodi basati su diffusione.
- La segmentazione basata su testo offre maggiore flessibilità rispetto ai compiti a categorie fisse.
- I modelli di diffusione hanno nature generative dannose per i compiti discriminativi.
- RLFSeg apprende una mappatura diretta nello spazio latente.
- Evita processi di rumore-denois e ottimizzazione del passo temporale.
- Le prestazioni sono sostanzialmente migliori nei compiti zero-shot.
- Il paper è arXiv:2605.04590.
Entità
Istituzioni
- arXiv