GPT-4o e altri modelli multimodali valutati su compiti visivi standard

ai-technology · 2026-05-04

Uno studio recente pubblicato su arXiv valuta diversi modelli di fondazione multimodali (MFM), come GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL e Llama 3.2, concentrandosi su compiti tipici di visione artificiale tra cui segmentazione semantica, rilevamento di oggetti, classificazione di immagini e previsione di profondità e normali di superficie. Utilizzando dataset noti come COCO e ImageNet, la ricerca evidenzia sfide significative, in particolare che molti modelli generano principalmente testo e faticano a rappresentare elementi visivi come segmenti o strutture 3D. Inoltre, numerosi modelli sono proprietari e accessibili solo tramite API. Per affrontare questi problemi, gli autori propongono di convertire i compiti visivi in formati richiedibili tramite testo utilizzando il concatenamento di prompt, stabilendo un quadro di valutazione coerente.

Fatti principali

1. Lo studio valuta GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2.
2. I compiti includono segmentazione semantica, rilevamento di oggetti, classificazione di immagini, previsione di profondità e normali di superficie.
3. Utilizza i dataset COCO e ImageNet.
4. I modelli producono solo testo e non possono esprimere nativamente segmenti o geometria 3D.
5. Molti modelli sono proprietari con accesso solo tramite API.
6. Il concatenamento di prompt viene utilizzato per tradurre i compiti visivi in formati richiedibili tramite testo.
7. Pubblicato su arXiv con ID 2507.01955.
8. Lo studio valuta la comprensione visiva dettagliata oltre la risposta a domande.

GPT-4o e altri modelli multimodali valutati su compiti visivi standard

Fatti principali

Entità

Istituzioni

Fonti