Il Framework CVSearch Migliora la Percezione di Immagini ad Alta Risoluzione nei MLLM Multimodali
Un nuovo framework chiamato CVSearch è stato lanciato per affrontare le sfide associate alla percezione di immagini ad alta risoluzione (HR) nei modelli linguistici multimodali di grandi dimensioni (MLLM). Questo sistema adattivo senza training impiega una strategia Valuta-poi-Cerca per coordinare dinamicamente i metodi di ricerca, integrando ricerche assistite da esperti per una maggiore efficienza insieme a un innovativo approccio di scansione semantica per una copertura migliorata. Inizialmente, utilizza la ricerca assistita da esperti quando mancano informazioni globali, attivando il meccanismo di scansione solo se questa fallisce. Il metodo di scansione impiega il Patch Adattivo Guidato dalla Semantica per suddividere le immagini in sezioni semanticamente coerenti, prevenendo così le inefficienze computazionali e il disordine semantico legati alla tradizionale suddivisione a griglia. Questa strategia mira a migliorare sia la copertura che l'efficienza, affrontando le carenze delle attuali tecniche di ricerca visiva.
Fatti principali
- CVSearch è un framework adattivo senza training per la percezione di immagini ad alta risoluzione nei MLLM.
- Utilizza un flusso di lavoro Valuta-poi-Cerca per programmare dinamicamente le strategie di ricerca.
- La ricerca assistita da esperti viene invocata per prima; la scansione semantica viene attivata in caso di fallimento.
- Il Patch Adattivo Guidato dalla Semantica scompone le immagini in regioni semanticamente coerenti.
- Il framework affronta il compromesso tra copertura ed efficienza nella ricerca visiva.
- I metodi esistenti soffrono di punti ciechi o ridondanza computazionale.
- CVSearch mira a superare i limiti della suddivisione rigida a griglia.
- La ricerca è pubblicata su arXiv con ID 2605.23655.
Entità
Istituzioni
- arXiv