Il benchmark MDGYM rivela che gli agenti AI faticano con le simulazioni molecolari

other · 2026-05-12

Un nuovo benchmark chiamato MDGYM testa gli agenti AI su simulazioni di dinamica molecolare, rivelando prestazioni scadenti. Il benchmark include 169 simulazioni curate da esperti nei pacchetti LAMMPS e GROMACS a tre livelli di difficoltà. Gli agenti valutati—Claude Code, Codex e OpenHands con quattro LLM—hanno risolto solo il 21% dei compiti facili e meno del 10% a difficoltà più elevate. Il lavoro evidenzia le sfide nella scoperta scientifica guidata dall'AI.

Fatti principali

MDGYM è un benchmark di 169 simulazioni MD curate da esperti.
Copre i pacchetti LAMMPS e GROMACS.
Sono inclusi tre livelli di difficoltà.
Sono stati valutati Claude Code, Codex e OpenHands.
Nella valutazione sono stati utilizzati quattro LLM.
Il miglior agente ha risolto solo il 21% dei compiti facili.
Meno del 10% è stato risolto a difficoltà più elevate.
Il benchmark testa gli agenti AI su simulazioni di dinamica molecolare.

Il benchmark MDGYM rivela che gli agenti AI faticano con le simulazioni molecolari

Fatti principali

Entità

Istituzioni

Fonti