ARTFEED — Contemporary Art Intelligence

I LLM hanno difficoltà con problemi di fisica multimodali

ai-technology · 2026-05-07

Uno studio su arXiv valuta tre grandi modelli linguistici (Claude, Gemini, ChatGPT) su problemi di fisica multimodali tratti dal database OpenStax. Mentre tutti i modelli hanno raggiunto una precisione del 96% sui problemi solo testuali, le prestazioni sono diminuite sostanzialmente sui compiti multimodali. La ricerca sviluppa una tassonomia empirica degli errori e testa un intervento di dialogo strutturato per affrontare i limiti dell'elaborazione multimodale.

Fatti principali

  • Lo studio valuta i LLM su problemi di fisica multimodali
  • Modelli testati: Claude, Gemini, ChatGPT
  • Problemi tratti dal database OpenStax
  • Precisione del 96% sui problemi solo testuali
  • Prestazioni diminuite sui problemi multimodali
  • Sviluppata una tassonomia empirica degli errori
  • Testato un intervento di dialogo multimodale strutturato
  • ID del paper su arXiv: 2605.04131

Entità

Istituzioni

  • OpenStax
  • arXiv

Fonti