Stargazer: Benchmark per Agenti AI in Astrofisica

other · 2026-05-13

Stargazer è un framework di benchmark scalabile progettato per valutare agenti AI su compiti dinamici e iterativi che coinvolgono il fitting di modelli fisici basati su dati di serie temporali di velocità radiale. Comprende 120 compiti distinti suddivisi in tre livelli di difficoltà, con 20 casi d'archivio autentici che spaziano da sistemi a singolo pianeta ad alto SNR a configurazioni multi-pianeta complesse. Una valutazione di otto agenti all'avanguardia ha evidenziato un divario tra l'ottimizzazione numerica e il rispetto dei vincoli fisici, indicando che, sebbene gli agenti raggiungano spesso fit statistici soddisfacenti, faticano a recuperare accuratamente i parametri fisici corretti.

Fatti principali

Stargazer è un benchmark per agenti AI su compiti di fitting di modelli astrofisici.
Utilizza dati di serie temporali di velocità radiale.
Include 120 compiti su tre livelli di difficoltà.
20 compiti sono casi d'archivio reali.
Copre da sistemi a singolo pianeta ad alto SNR a sistemi multi-pianeta complessi.
Sono stati valutati otto agenti all'avanguardia.
Gli agenti spesso ottengono un buon fit statistico ma non riescono a recuperare i parametri fisici corretti.

Entità

—

Fonti

arXiv cs.AI — 2026-05-13