Seg-Agent: Ragionamento Multimodale Senza Addestramento per la Segmentazione Guidata dal Linguaggio
Seg-Agent è un framework per la segmentazione guidata dal linguaggio che elimina la necessità di addestramento e incorpora il ragionamento multimodale durante il test. A differenza degli attuali metodi a due fasi che dipendono da Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) per interpretare i comandi e produrre suggerimenti visivi per modelli di segmentazione fondamentali come SAM, Seg-Agent supera i limiti di ancoraggio spaziale dei MLLM standard senza richiedere un addestramento esteso su grandi dataset. La sua principale innovazione risiede in un meccanismo di ragionamento che funziona sia nel dominio testuale che visivo, consentendo una migliore accuratezza della segmentazione basata su direttive in linguaggio naturale. Questo approccio completamente senza addestramento, descritto in arXiv:2605.12953, segna un notevole progresso nel migliorare l'accessibilità e l'efficienza della segmentazione guidata dal linguaggio.
Fatti principali
- Seg-Agent è un framework senza addestramento per la segmentazione guidata dal linguaggio
- Integra il ragionamento multimodale al momento del test
- Gli approcci esistenti utilizzano un framework a due fasi con MLLM e SAM
- I MLLM pronti all'uso hanno capacità limitate di ancoraggio spaziale
- I metodi precedenti si basano su un addestramento esteso su dataset su larga scala
- I recenti progressi nel ragionamento operano solo nel dominio testuale
- Seg-Agent incorpora feedback visivo diretto
- L'articolo è disponibile su arXiv con ID 2605.12953
Entità
Istituzioni
- arXiv