COMO: Riconoscimento Ottico di Molecole a Ciclo Chiuso con Addestramento a Rischio Minimo
Un nuovo framework di IA chiamato COMO (Closed-loop Optical Molecule recOgnition) affronta la sfida del riconoscimento ottico di strutture chimiche (OCSR) in documenti reali. L'OCSR traduce immagini molecolari in formati leggibili da macchina come stringhe SMILES o grafi molecolari, ma incontra difficoltà con variazioni nelle strutture chimiche, convenzioni abbreviate e rumore visivo. I metodi esistenti di deep learning utilizzano il teacher forcing con stima di massima verosimiglianza a livello di token (MLE), che soffre di bias di esposizione e non ottimizza criteri a livello molecolare come la validità chimica e la similarità strutturale. COMO introduce l'addestramento a rischio minimo (MRT) nell'OCSR, creando un framework a ciclo chiuso che ottimizza direttamente le metriche di valutazione a livello molecolare, mitigando il bias di esposizione. L'articolo è disponibile su arXiv con identificativo 2604.23546.
Fatti principali
- COMO è un framework a ciclo chiuso per il riconoscimento ottico di strutture chimiche
- Utilizza l'addestramento a rischio minimo per mitigare il bias di esposizione
- I metodi esistenti si basano sulla stima di massima verosimiglianza a livello di token
- L'OCSR traduce immagini molecolari in stringhe SMILES o grafi molecolari
- L'articolo è su arXiv con ID 2604.23546
- I documenti reali presentano variazioni inesauribili nelle strutture chimiche
- La MLE a livello di token ostacola l'ottimizzazione per validità chimica e similarità strutturale
- COMO ottimizza direttamente i criteri di valutazione a livello molecolare
Entità
Istituzioni
- arXiv