SPM-Bench: Nuovo benchmark testa i LLM sulla microscopia a sonda di scansione
Un nuovo benchmark chiamato SPM-Bench è stato lanciato da ricercatori per valutare i modelli linguistici di grandi dimensioni (LLM) nel contesto della microscopia a sonda di scansione (SPM) a livello di dottorato. Questo benchmark mira a superare le limitazioni riscontrate nei benchmark scientifici attuali, come la contaminazione dei dati e la mancanza di complessità. Per facilitare ciò, è stata creata una pipeline di sintesi dati completamente automatizzata, che utilizza la tecnologia Anchor-Gated Sieve (AGS) per raccogliere coppie immagine-testo di valore da arXiv e articoli di riviste pubblicati tra il 2023 e il 2025. Questa pipeline presenta un'architettura ibrida cloud-locale, consentendo ai modelli visione-linguaggio (VLM) di fornire coordinate spaziali per il ritaglio locale, garantendo così efficienza dei token e integrità del dataset. Una metrica Strict Imperfection è inclusa per una valutazione precisa delle prestazioni degli LLM.
Fatti principali
- SPM-Bench è un benchmark multimodale a livello di dottorato per la microscopia a sonda di scansione.
- Utilizza una pipeline di sintesi dati automatizzata con tecnologia Anchor-Gated Sieve (AGS).
- I dati provengono da arXiv e articoli di riviste pubblicati tra il 2023 e il 2025.
- La pipeline impiega un'architettura ibrida cloud-locale per il risparmio di token.
- I VLM restituiscono coordinate spaziali per il ritaglio locale ad alta fedeltà.
- Viene introdotta una metrica Strict Imperfection per la valutazione.
- Il benchmark mira ad affrontare la contaminazione dei dati e l'insufficiente complessità dei benchmark esistenti.
- Il lavoro è pubblicato su arXiv con identificatore 2602.22971.
Entità
Istituzioni
- arXiv