C-MORAL: Framework RL per l'Ottimizzazione Molecolare Multi-Obiettivo con LLM
Un nuovo framework chiamato C-MORAL è stato introdotto dai ricercatori, progettato per l'ottimizzazione molecolare multi-obiettivo controllabile attraverso l'apprendimento per rinforzo e modelli linguistici di grandi dimensioni. Questo framework integra l'ottimizzazione relativa basata su gruppi, allinea i punteggi delle proprietà per diversi obiettivi e utilizza l'aggregazione continua di ricompense non lineari per migliorare la stabilità in presenza di vari vincoli di progettazione farmaceutica. Nelle valutazioni sul benchmark C-MuMOInstruct, C-MORAL ha raggiunto un tasso di successo ottimizzato (SOR) leader del 48,9% per i compiti in-domain e del 39,5% per i compiti out-of-domain, mantenendo al contempo la similarità dello scaffold. Questa ricerca illustra l'efficacia del post-training RL nell'allineare i modelli linguistici molecolari con gli obiettivi di progettazione molecolare in corso. Il codice e i dati associati sono accessibili.
Fatti principali
- C-MORAL è un framework di post-training con apprendimento per rinforzo per l'ottimizzazione molecolare multi-obiettivo controllabile.
- Combina ottimizzazione relativa basata su gruppi, allineamento dei punteggi delle proprietà e aggregazione continua di ricompense non lineari.
- Valutato sul benchmark C-MuMOInstruct.
- Raggiunge un SOR del 48,9% per i compiti IND e del 39,5% per i compiti OOD.
- Preserva la similarità dello scaffold mentre ottimizza più proprietà.
- Affronta l'allineamento degli LLM con vincoli selettivi e concorrenti di progettazione farmaceutica.
- Pubblicato come arXiv:2604.23061.
- Codice e dati sono rilasciati.
Entità
Istituzioni
- arXiv