ARTFEED — Contemporary Art Intelligence

SPM-Bench: Nuovo benchmark testa i LLM sulla microscopia a sonda di scansione

ai-technology · 2026-06-01

Un nuovo benchmark chiamato SPM-Bench è stato lanciato da ricercatori per valutare i modelli linguistici di grandi dimensioni (LLM) nel contesto della microscopia a sonda di scansione (SPM) a livello di dottorato. Questo benchmark mira a superare le limitazioni riscontrate nei benchmark scientifici attuali, come la contaminazione dei dati e la mancanza di complessità. Per facilitare ciò, è stata creata una pipeline di sintesi dati completamente automatizzata, che utilizza la tecnologia Anchor-Gated Sieve (AGS) per raccogliere coppie immagine-testo di valore da arXiv e articoli di riviste pubblicati tra il 2023 e il 2025. Questa pipeline presenta un'architettura ibrida cloud-locale, consentendo ai modelli visione-linguaggio (VLM) di fornire coordinate spaziali per il ritaglio locale, garantendo così efficienza dei token e integrità del dataset. Una metrica Strict Imperfection è inclusa per una valutazione precisa delle prestazioni degli LLM.

Fatti principali

  • SPM-Bench è un benchmark multimodale a livello di dottorato per la microscopia a sonda di scansione.
  • Utilizza una pipeline di sintesi dati automatizzata con tecnologia Anchor-Gated Sieve (AGS).
  • I dati provengono da arXiv e articoli di riviste pubblicati tra il 2023 e il 2025.
  • La pipeline impiega un'architettura ibrida cloud-locale per il risparmio di token.
  • I VLM restituiscono coordinate spaziali per il ritaglio locale ad alta fedeltà.
  • Viene introdotta una metrica Strict Imperfection per la valutazione.
  • Il benchmark mira ad affrontare la contaminazione dei dati e l'insufficiente complessità dei benchmark esistenti.
  • Il lavoro è pubblicato su arXiv con identificatore 2602.22971.

Entità

Istituzioni

  • arXiv

Fonti