X2SAM: Modello di Segmentazione Unificato per Immagini e Video

ai-technology · 2026-05-06

Un nuovo modello MLLM di segmentazione unificato chiamato X2SAM è stato sviluppato da ricercatori, estendendo le funzionalità di segmentazione universale dalle immagini ai video. Questo modello integra un modulo Mask Memory con un LLM per produrre maschere video temporalmente coerenti, accogliendo sia prompt visivi che testuali. Supera le carenze degli attuali MLLM, che sono tipicamente progettati per immagini o video e faticano con direttive conversazionali complesse. X2SAM facilita la segmentazione conversazionale generica, a vocabolario aperto, referenziale, di ragionamento e ancorata in entrambi i formati.

Fatti principali

X2SAM è un MLLM di segmentazione unificato per immagini e video
Utilizza un LLM con un modulo Mask Memory
Supporta prompt testuali e visivi
Consente la generazione di maschere video temporalmente coerenti
Affronta le limitazioni degli attuali MLLM di segmentazione
Supporta la segmentazione conversazionale generica, a vocabolario aperto, referenziale, di ragionamento e ancorata
Pubblicato su arXiv con ID 2605.00891
Tipo di annuncio: cross

Entità

—

Fonti

arXiv cs.AI — 2026-05-05