Ricerca Confronta il Pretraining Continuo e GraphRAG per Modelli Linguistici Biomedici

ai-technology · 2026-04-22

Uno studio esplora due metodi distinti per integrare conoscenze biomediche strutturate nei modelli linguistici, confrontando il pretraining continuo con il Graph Retrieval-Augmented Generation. I ricercatori hanno costruito un grafo di conoscenza biomedica su larga scala dal Metathesaurus UMLS, contenente 3,4 milioni di concetti e 34,2 milioni di relazioni, memorizzato in Neo4j per interrogazioni efficienti. Da questo grafo, hanno derivato un corpus testuale di circa 100 milioni di token per addestrare continuamente due modelli: BERTUMLS (partendo da BERT) e BioBERTUMLS (partendo da BioBERT). La ricerca valuta questi modelli su sei dataset del Biomedical Language Understanding and Reasoning Benchmark (BLURB), che coprono cinque diversi tipi di compiti. Il lavoro indaga come le conoscenze strutturate da UMLS possano potenziare i modelli linguistici per applicazioni biomediche specializzate, superando la dipendenza da corpora testuali non strutturati. Questo approccio mira a migliorare le prestazioni nelle attività di comprensione del linguaggio biomedico attraverso l'iniezione sistematica di conoscenze.

Fatti principali

Lo studio esplora due strategie per iniettare conoscenze biomediche strutturate nei modelli linguistici: pretraining continuo e Graph Retrieval-Augmented Generation (GraphRAG)
La ricerca utilizza conoscenze strutturate dal Metathesaurus UMLS
Il grafo di conoscenza biomedica costruito contiene 3,4 milioni di concetti e 34,2 milioni di relazioni
Il grafo di conoscenza è memorizzato in Neo4j per interrogazioni efficienti
Derivato un corpus testuale di circa 100 milioni di token dal grafo di conoscenza
Addestrati continuamente due modelli: BERTUMLS (da BERT) e BioBERTUMLS (da BioBERT)
Valutazione condotta su sei dataset BLURB che coprono cinque tipi di compiti
Identificatore del paper arXiv: 2604.16422v1

Ricerca Confronta il Pretraining Continuo e GraphRAG per Modelli Linguistici Biomedici

Fatti principali

Entità

Istituzioni

Fonti