RAR: Metodo di Recupero e Ranking per MLLM Potenziati nel Riconoscimento Visivo

ai-technology · 2026-05-18

I ricercatori introducono RAR, un metodo che combina CLIP e Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) per migliorare il riconoscimento visivo few-shot e zero-shot, in particolare per dataset con vocabolari estesi e a grana fine. CLIP eccelle nel riconoscimento generale ma fatica con distinzioni a grana fine, mentre gli MLLM gestiscono bene le categorie a grana fine ma le loro prestazioni diminuiscono all'aumentare del numero di categorie a causa della complessità e dei limiti della finestra di contesto. RAR utilizza un recuperatore multimodale basato su CLIP per selezionare candidati rilevanti, quindi li classifica utilizzando MLLM, sinergizzando entrambi i punti di forza. L'articolo è pubblicato su arXiv (2403.13805) e si concentra sul miglioramento delle capacità di riconoscimento senza aggiungere nuove informazioni oltre la fonte.

Fatti principali

RAR sta per metodo di Recupero e Ranking potenziato per MLLM.
CLIP utilizza l'apprendimento contrastivo da coppie rumorose immagine-testo.
CLIP eccelle nel riconoscere un'ampia gamma di candidati.
Gli MLLM eccellono nella classificazione di categorie a grana fine.
Le prestazioni degli MLLM diminuiscono all'aumentare del numero di categorie.
RAR combina CLIP e MLLM per il riconoscimento few-shot/zero-shot.
RAR utilizza un recuperatore multimodale basato su CLIP.
L'articolo è pubblicato su arXiv con ID 2403.13805.

RAR: Metodo di Recupero e Ranking per MLLM Potenziati nel Riconoscimento Visivo

Fatti principali

Entità

Istituzioni

Fonti