BioELX: Collegamento di Entità Biomediche Cross-lingue tramite Recupero Basato su Alias e Ranking con LLM
BioELX è un framework di collegamento di entità biomediche (BEL) cross-lingue a due fasi che non richiede dati di addestramento annotati specifici per il compito. Nella Fase 1, arricchisce l'addestramento di SapBERT con alias multilingue da Wikidata per migliorare il recupero dei candidati per menzioni non in inglese. La Fase 2 utilizza un ranker LLM pre-addestrato per la disambiguazione sensibile al contesto. L'approccio affronta l'alto costo dei dati annotati da esperti e la scarsa generalizzazione dei sistemi esistenti alle lingue a basse risorse.
Fatti principali
- BioELX è un framework BEL cross-lingue.
- Ha due fasi: recupero basato su alias e ranking con LLM.
- La Fase 1 arricchisce SapBERT con alias multilingue da Wikidata.
- La Fase 2 utilizza un LLM pre-addestrato per la disambiguazione.
- Non richiede dati di addestramento annotati specifici per il compito.
- Si rivolge a lingue a basse risorse.
- I sistemi esistenti si basano su alias inglesi nella KB.
- L'articolo è su arXiv con ID 2605.27380.
Entità
Istituzioni
- arXiv
- Wikidata