GPT-4o e altri modelli multimodali valutati su compiti visivi standard
Uno studio recente pubblicato su arXiv valuta diversi modelli di fondazione multimodali (MFM), come GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL e Llama 3.2, concentrandosi su compiti tipici di visione artificiale tra cui segmentazione semantica, rilevamento di oggetti, classificazione di immagini e previsione di profondità e normali di superficie. Utilizzando dataset noti come COCO e ImageNet, la ricerca evidenzia sfide significative, in particolare che molti modelli generano principalmente testo e faticano a rappresentare elementi visivi come segmenti o strutture 3D. Inoltre, numerosi modelli sono proprietari e accessibili solo tramite API. Per affrontare questi problemi, gli autori propongono di convertire i compiti visivi in formati richiedibili tramite testo utilizzando il concatenamento di prompt, stabilendo un quadro di valutazione coerente.
Fatti principali
- 1. Lo studio valuta GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2.
- 2. I compiti includono segmentazione semantica, rilevamento di oggetti, classificazione di immagini, previsione di profondità e normali di superficie.
- 3. Utilizza i dataset COCO e ImageNet.
- 4. I modelli producono solo testo e non possono esprimere nativamente segmenti o geometria 3D.
- 5. Molti modelli sono proprietari con accesso solo tramite API.
- 6. Il concatenamento di prompt viene utilizzato per tradurre i compiti visivi in formati richiedibili tramite testo.
- 7. Pubblicato su arXiv con ID 2507.01955.
- 8. Lo studio valuta la comprensione visiva dettagliata oltre la risposta a domande.
Entità
Istituzioni
- arXiv