I LLM hanno difficoltà con problemi di fisica multimodali

ai-technology · 2026-05-07

Uno studio su arXiv valuta tre grandi modelli linguistici (Claude, Gemini, ChatGPT) su problemi di fisica multimodali tratti dal database OpenStax. Mentre tutti i modelli hanno raggiunto una precisione del 96% sui problemi solo testuali, le prestazioni sono diminuite sostanzialmente sui compiti multimodali. La ricerca sviluppa una tassonomia empirica degli errori e testa un intervento di dialogo strutturato per affrontare i limiti dell'elaborazione multimodale.

Fatti principali

Lo studio valuta i LLM su problemi di fisica multimodali
Modelli testati: Claude, Gemini, ChatGPT
Problemi tratti dal database OpenStax
Precisione del 96% sui problemi solo testuali
Prestazioni diminuite sui problemi multimodali
Sviluppata una tassonomia empirica degli errori
Testato un intervento di dialogo multimodale strutturato
ID del paper su arXiv: 2605.04131

I LLM hanno difficoltà con problemi di fisica multimodali

Fatti principali

Entità

Istituzioni

Fonti