Il benchmark MDGYM rivela che gli agenti AI faticano con le simulazioni molecolari
Un nuovo benchmark chiamato MDGYM testa gli agenti AI su simulazioni di dinamica molecolare, rivelando prestazioni scadenti. Il benchmark include 169 simulazioni curate da esperti nei pacchetti LAMMPS e GROMACS a tre livelli di difficoltà. Gli agenti valutati—Claude Code, Codex e OpenHands con quattro LLM—hanno risolto solo il 21% dei compiti facili e meno del 10% a difficoltà più elevate. Il lavoro evidenzia le sfide nella scoperta scientifica guidata dall'AI.
Fatti principali
- MDGYM è un benchmark di 169 simulazioni MD curate da esperti.
- Copre i pacchetti LAMMPS e GROMACS.
- Sono inclusi tre livelli di difficoltà.
- Sono stati valutati Claude Code, Codex e OpenHands.
- Nella valutazione sono stati utilizzati quattro LLM.
- Il miglior agente ha risolto solo il 21% dei compiti facili.
- Meno del 10% è stato risolto a difficoltà più elevate.
- Il benchmark testa gli agenti AI su simulazioni di dinamica molecolare.
Entità
Istituzioni
- arXiv