Ricerca Confronta il Pretraining Continuo e GraphRAG per Modelli Linguistici Biomedici
Uno studio esplora due metodi distinti per integrare conoscenze biomediche strutturate nei modelli linguistici, confrontando il pretraining continuo con il Graph Retrieval-Augmented Generation. I ricercatori hanno costruito un grafo di conoscenza biomedica su larga scala dal Metathesaurus UMLS, contenente 3,4 milioni di concetti e 34,2 milioni di relazioni, memorizzato in Neo4j per interrogazioni efficienti. Da questo grafo, hanno derivato un corpus testuale di circa 100 milioni di token per addestrare continuamente due modelli: BERTUMLS (partendo da BERT) e BioBERTUMLS (partendo da BioBERT). La ricerca valuta questi modelli su sei dataset del Biomedical Language Understanding and Reasoning Benchmark (BLURB), che coprono cinque diversi tipi di compiti. Il lavoro indaga come le conoscenze strutturate da UMLS possano potenziare i modelli linguistici per applicazioni biomediche specializzate, superando la dipendenza da corpora testuali non strutturati. Questo approccio mira a migliorare le prestazioni nelle attività di comprensione del linguaggio biomedico attraverso l'iniezione sistematica di conoscenze.
Fatti principali
- Lo studio esplora due strategie per iniettare conoscenze biomediche strutturate nei modelli linguistici: pretraining continuo e Graph Retrieval-Augmented Generation (GraphRAG)
- La ricerca utilizza conoscenze strutturate dal Metathesaurus UMLS
- Il grafo di conoscenza biomedica costruito contiene 3,4 milioni di concetti e 34,2 milioni di relazioni
- Il grafo di conoscenza è memorizzato in Neo4j per interrogazioni efficienti
- Derivato un corpus testuale di circa 100 milioni di token dal grafo di conoscenza
- Addestrati continuamente due modelli: BERTUMLS (da BERT) e BioBERTUMLS (da BioBERT)
- Valutazione condotta su sei dataset BLURB che coprono cinque tipi di compiti
- Identificatore del paper arXiv: 2604.16422v1
Entità
Istituzioni
- arXiv