X2SAM: Modello di Segmentazione Unificato per Immagini e Video
Un nuovo modello MLLM di segmentazione unificato chiamato X2SAM è stato sviluppato da ricercatori, estendendo le funzionalità di segmentazione universale dalle immagini ai video. Questo modello integra un modulo Mask Memory con un LLM per produrre maschere video temporalmente coerenti, accogliendo sia prompt visivi che testuali. Supera le carenze degli attuali MLLM, che sono tipicamente progettati per immagini o video e faticano con direttive conversazionali complesse. X2SAM facilita la segmentazione conversazionale generica, a vocabolario aperto, referenziale, di ragionamento e ancorata in entrambi i formati.
Fatti principali
- X2SAM è un MLLM di segmentazione unificato per immagini e video
- Utilizza un LLM con un modulo Mask Memory
- Supporta prompt testuali e visivi
- Consente la generazione di maschere video temporalmente coerenti
- Affronta le limitazioni degli attuali MLLM di segmentazione
- Supporta la segmentazione conversazionale generica, a vocabolario aperto, referenziale, di ragionamento e ancorata
- Pubblicato su arXiv con ID 2605.00891
- Tipo di annuncio: cross
Entità
—