gwBenchmarks valuta gli agenti LLM sulla modellazione delle onde gravitazionali

ai-technology · 2026-05-13

Una nuova suite di benchmark chiamata gwBenchmarks valuta gli agenti di codifica LLM all'avanguardia su compiti di astronomia delle onde gravitazionali ad alta precisione. Gli otto compiti si basano su calcoli analitici e simulazioni numeriche che rappresentano collettivamente oltre 10^8 ore-core di calcolo. Includono interpolazione, regressione e modellazione di serie temporali ad alta dimensionalità. Il successo richiede la costruzione di modelli con errore relativo inferiore a 10^{-4} e il ragionamento su sistemi fisici come la dinamica orbitale dei buchi neri e le proprietà dei residui di fusione. Il lavoro evidenzia le potenzialità e i limiti dell'IA nella modellazione scientifica.

Fatti principali

1. gwBenchmarks è una suite di otto compiti per agenti di codifica LLM.
2. I compiti si basano su calcoli analitici e simulazioni numeriche delle onde gravitazionali.
3. Le simulazioni rappresentano oltre 10^8 ore-core di calcolo.
4. I compiti includono interpolazione, regressione e modellazione di serie temporali ad alta dimensionalità.
5. I modelli devono raggiungere un errore relativo inferiore a 10^{-4}.
6. I compiti coinvolgono la dinamica orbitale dei buchi neri e le proprietà dei residui di fusione.
7. Il benchmark testa la modellazione scientifica end-to-end da parte degli LLM.
8. L'articolo è pubblicato su arXiv con ID 2605.11269.

Entità

—

Fonti

arXiv cs.AI — 2026-05-13