AutoMat: un benchmark per testare i LLM nella riproduzione di affermazioni scientifiche sui materiali
Un nuovo benchmark chiamato AutoMat valuta se gli agenti di codifica basati su modelli linguistici di grandi dimensioni possono riprodurre i risultati della scienza computazionale dei materiali. Il benchmark, introdotto in arXiv:2605.00803, sfida gli agenti a recuperare procedure computazionali sottospecificate, navigare in toolchain specializzati e determinare se le prove supportano un'affermazione scientifica. Le affermazioni sono curate da articoli reali di scienza dei materiali con il contributo di esperti del settore. Il lavoro verifica se il successo dei LLM nei benchmark di ingegneria del software si trasferisce a flussi di lavoro scientifici complessi che richiedono procedure specifiche del dominio e interpretazione dei risultati.
Fatti principali
- AutoMat è un benchmark per valutare agenti basati su LLM nella riproduzione di affermazioni di scienza computazionale dei materiali.
- Presenta tre sfide: recuperare procedure sottospecificate, navigare in toolchain specializzati e determinare il supporto delle prove.
- Le affermazioni sono curate da articoli reali di scienza dei materiali con il contributo di esperti del settore.
- Lo studio affronta se il successo dei LLM nei benchmark di ingegneria del software si trasferisce a flussi di lavoro scientifici.
- Il benchmark è descritto in arXiv:2605.00803.
- I modelli linguistici di grandi dimensioni sono sempre più utilizzati come agenti di codifica autonomi.
- Il lavoro si concentra sulla scienza computazionale dei materiali.
- Il benchmark richiede sia capacità di codifica che conoscenze specifiche del dominio.
Entità
Istituzioni
- arXiv