ARTFEED — Contemporary Art Intelligence

Il benchmark MDGYM rivela che gli agenti AI faticano con le simulazioni molecolari

other · 2026-05-12

Un nuovo benchmark chiamato MDGYM testa gli agenti AI su simulazioni di dinamica molecolare, rivelando prestazioni scadenti. Il benchmark include 169 simulazioni curate da esperti nei pacchetti LAMMPS e GROMACS a tre livelli di difficoltà. Gli agenti valutati—Claude Code, Codex e OpenHands con quattro LLM—hanno risolto solo il 21% dei compiti facili e meno del 10% a difficoltà più elevate. Il lavoro evidenzia le sfide nella scoperta scientifica guidata dall'AI.

Fatti principali

  • MDGYM è un benchmark di 169 simulazioni MD curate da esperti.
  • Copre i pacchetti LAMMPS e GROMACS.
  • Sono inclusi tre livelli di difficoltà.
  • Sono stati valutati Claude Code, Codex e OpenHands.
  • Nella valutazione sono stati utilizzati quattro LLM.
  • Il miglior agente ha risolto solo il 21% dei compiti facili.
  • Meno del 10% è stato risolto a difficoltà più elevate.
  • Il benchmark testa gli agenti AI su simulazioni di dinamica molecolare.

Entità

Istituzioni

  • arXiv

Fonti