I LLM hanno difficoltà con problemi di fisica multimodali
Uno studio su arXiv valuta tre grandi modelli linguistici (Claude, Gemini, ChatGPT) su problemi di fisica multimodali tratti dal database OpenStax. Mentre tutti i modelli hanno raggiunto una precisione del 96% sui problemi solo testuali, le prestazioni sono diminuite sostanzialmente sui compiti multimodali. La ricerca sviluppa una tassonomia empirica degli errori e testa un intervento di dialogo strutturato per affrontare i limiti dell'elaborazione multimodale.
Fatti principali
- Lo studio valuta i LLM su problemi di fisica multimodali
- Modelli testati: Claude, Gemini, ChatGPT
- Problemi tratti dal database OpenStax
- Precisione del 96% sui problemi solo testuali
- Prestazioni diminuite sui problemi multimodali
- Sviluppata una tassonomia empirica degli errori
- Testato un intervento di dialogo multimodale strutturato
- ID del paper su arXiv: 2605.04131
Entità
Istituzioni
- OpenStax
- arXiv