MolRecBench-Wild: Nuovo Benchmark per il Riconoscimento di Strutture Chimiche
MolRecBench-Wild è stato lanciato da ricercatori come benchmark composto da 5.029 strutture molecolari provenienti da 820 pubblicazioni chimiche contemporanee. Questo benchmark mira a valutare i sistemi di Riconoscimento Ottico di Strutture Chimiche (OCSR) utilizzando immagini autentiche. Utilizza MOSAIC, un framework che incorpora livelli di difficoltà bidimensionali e presenta 37 etichette dettagliate che affrontano interferenze visive e semantica chimica. Per facilitare valutazioni accurate, il team ha anche introdotto CARBON, un linguaggio di rappresentazione in grado di trasmettere cambi di valenza, categorie basate su icone e varie semantiche chimiche non convenzionali. Inoltre, è stato istituito un protocollo di valutazione a doppio binario per supportare sia output CARBON che SMILES, garantendo un'ampia compatibilità.
Fatti principali
- MolRecBench-Wild contiene 5.029 strutture da 820 recenti articoli di chimica.
- MOSAIC è un framework di difficoltà bidimensionale con 37 etichette a grana fine.
- CARBON è un nuovo linguaggio di rappresentazione per semantiche chimiche non standard.
- Il benchmark copre l'intero spettro di difficoltà delle pubblicazioni reali.
- Un protocollo di valutazione a doppio binario supporta sia output CARBON che SMILES.
- L'OCSR mira a tradurre diagrammi molecolari in formati leggibili da macchina.
- Gli attuali sistemi OCSR rimangono inaffidabili su immagini del mondo reale.
- Il lavoro è pubblicato su arXiv con ID 2605.05832.
Entità
Istituzioni
- arXiv