Nuovo Benchmark Testa Agenti AI su Biologia Spaziale a Lungo Orizzonte
È stato presentato un nuovo strumento di valutazione chiamato SpatialBench-Long per valutare le capacità di ragionamento scientifico degli agenti di intelligenza artificiale basate su informazioni biologiche spaziali. Questo innovativo benchmark si distingue dagli altri sfidando gli agenti a trarre conclusioni biologiche da dati spaziali grezzi e contesti sperimentali personalizzati, piuttosto che basarsi su approcci convenzionali. Comprende 24 valutazioni su vari modelli biologici, tra cui adenocarcinoma duttale pancreatico, organoidi di glioblastoma ingegnerizzati e altri. Lo strumento integra molteplici tipi di dati, come sequenziamento RNA a singola cellula e istologia, e rafforza i risultati candidati attraverso metodi di replicazione.
Fatti principali
- SpatialBench-Long valuta gli agenti AI sulla biologia spaziale a lungo orizzonte.
- Il benchmark richiede agli agenti di recuperare affermazioni biologiche da dati grezzi.
- Contiene 24 valutazioni su molteplici sistemi biologici.
- I sistemi includono PDAC, organoidi di glioblastoma, adenocarcinoma polmonare e nervo ottico di topo.
- I tipi di dati includono CosMx, Visium, Xenium, MERFISH, scRNA-seq, Slide-seq, Slide-tags, istologia e lineage-recording.
- Nessun metodo prescritto viene fornito agli agenti.
- Il benchmark testa il ragionamento scientifico end-to-end.
- Pubblicato su arXiv con ID 2605.28065.
Entità
Istituzioni
- arXiv