RAR: Metodo di Recupero e Ranking per MLLM Potenziati nel Riconoscimento Visivo
I ricercatori introducono RAR, un metodo che combina CLIP e Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) per migliorare il riconoscimento visivo few-shot e zero-shot, in particolare per dataset con vocabolari estesi e a grana fine. CLIP eccelle nel riconoscimento generale ma fatica con distinzioni a grana fine, mentre gli MLLM gestiscono bene le categorie a grana fine ma le loro prestazioni diminuiscono all'aumentare del numero di categorie a causa della complessità e dei limiti della finestra di contesto. RAR utilizza un recuperatore multimodale basato su CLIP per selezionare candidati rilevanti, quindi li classifica utilizzando MLLM, sinergizzando entrambi i punti di forza. L'articolo è pubblicato su arXiv (2403.13805) e si concentra sul miglioramento delle capacità di riconoscimento senza aggiungere nuove informazioni oltre la fonte.
Fatti principali
- RAR sta per metodo di Recupero e Ranking potenziato per MLLM.
- CLIP utilizza l'apprendimento contrastivo da coppie rumorose immagine-testo.
- CLIP eccelle nel riconoscere un'ampia gamma di candidati.
- Gli MLLM eccellono nella classificazione di categorie a grana fine.
- Le prestazioni degli MLLM diminuiscono all'aumentare del numero di categorie.
- RAR combina CLIP e MLLM per il riconoscimento few-shot/zero-shot.
- RAR utilizza un recuperatore multimodale basato su CLIP.
- L'articolo è pubblicato su arXiv con ID 2403.13805.
Entità
Istituzioni
- arXiv