ARTFEED — Contemporary Art Intelligence

GPT-4o e altri modelli multimodali valutati su compiti visivi standard

ai-technology · 2026-05-04

Uno studio recente pubblicato su arXiv valuta diversi modelli di fondazione multimodali (MFM), come GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL e Llama 3.2, concentrandosi su compiti tipici di visione artificiale tra cui segmentazione semantica, rilevamento di oggetti, classificazione di immagini e previsione di profondità e normali di superficie. Utilizzando dataset noti come COCO e ImageNet, la ricerca evidenzia sfide significative, in particolare che molti modelli generano principalmente testo e faticano a rappresentare elementi visivi come segmenti o strutture 3D. Inoltre, numerosi modelli sono proprietari e accessibili solo tramite API. Per affrontare questi problemi, gli autori propongono di convertire i compiti visivi in formati richiedibili tramite testo utilizzando il concatenamento di prompt, stabilendo un quadro di valutazione coerente.

Fatti principali

  • 1. Lo studio valuta GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2.
  • 2. I compiti includono segmentazione semantica, rilevamento di oggetti, classificazione di immagini, previsione di profondità e normali di superficie.
  • 3. Utilizza i dataset COCO e ImageNet.
  • 4. I modelli producono solo testo e non possono esprimere nativamente segmenti o geometria 3D.
  • 5. Molti modelli sono proprietari con accesso solo tramite API.
  • 6. Il concatenamento di prompt viene utilizzato per tradurre i compiti visivi in formati richiedibili tramite testo.
  • 7. Pubblicato su arXiv con ID 2507.01955.
  • 8. Lo studio valuta la comprensione visiva dettagliata oltre la risposta a domande.

Entità

Istituzioni

  • arXiv

Fonti