AstroAlertBench: Benchmarking dei LLM Multimodali per la Classificazione Astronomica

ai-technology · 2026-05-09

AstroAlertBench è stato lanciato da ricercatori come benchmark multimodale progettato per valutare i modelli linguistici di grandi dimensioni (LLM) nella classificazione di eventi astronomici. Questo benchmark utilizza 1.500 avvisi autentici provenienti dalla Zwicky Transient Facility (ZTF), che conduce un'indagine a campo largo del cielo settentrionale per fenomeni transitori. Valuta i modelli attraverso un processo logico in tre fasi: ancoraggio nei metadati, ragionamento scientifico e classificazione gerarchica in cinque categorie distinte. Sono stati testati tredici LLM all'avanguardia, sia closed-source che open-weight, in grado di elaborare input visivi. I risultati indicano che anche i modelli più sofisticati incontrano difficoltà nella classificazione scientifica specializzata, sottolineando un ostacolo significativo nell'automazione delle revisioni astronomiche.

Fatti principali

AstroAlertBench è un benchmark multimodale per LLM nella classificazione astronomica.
Utilizza 1.500 avvisi reali dalla Zwicky Transient Facility (ZTF).
Il benchmark valuta l'ancoraggio nei metadati, il ragionamento scientifico e la classificazione gerarchica.
Sono stati testati tredici LLM all'avanguardia (closed-source e open-weight).
I risultati mostrano che gli LLM hanno prestazioni inferiori in compiti scientifici specializzati.

AstroAlertBench: Benchmarking dei LLM Multimodali per la Classificazione Astronomica

Fatti principali

Entità

Istituzioni

Fonti