BioConCal: Valutatore Supervisionato per la Verifica di Candidati NER Biomedici

other · 2026-06-01

BioConCal, un nuovo benchmark e sistema di punteggio supervisionato, affronta il problema della validazione dei candidati per il riconoscimento di entità nominate (NER) biomediche generati da vari modelli linguistici di grandi dimensioni (LLM). Questo benchmark consolida le previsioni di otto LLM in una tabella principale utilizzando cinque dataset pubblici di NER biomedico. Impiegando caratteristiche di inferenza come accordo, menzione, disponibilità superficiale e caratteristiche del documento, BioConCal assegna un punteggio ai candidati. Migliora l'AUROC da 0,753 (basato sull'accordo grezzo) a 0,910 in-domain. Questa ricerca sottolinea che, sebbene l'accordo multi-LLM sia un segnale saliente, non garantisce la correttezza secondo le convenzioni del corpus, a causa di differenze nelle pratiche di annotazione, nei confini delle span, nella granularità delle entità e negli schemi di tipo.

Fatti principali

BioConCal è un valutatore supervisionato in-domain per la verifica di candidati emersi da pannelli.
Il benchmark allinea le previsioni di otto LLM su cinque dataset pubblici di NER biomedico.
BioConCal migliora l'AUROC da 0,753 a 0,910 in-domain.
L'accordo multi-LLM è un segnale di salienza, non di correttezza secondo le convenzioni del corpus.
Le caratteristiche includono accordo, menzione, disponibilità superficiale e caratteristiche del documento.
Il benchmark utilizza una tabella principale dei candidati da previsioni allineate.
Il NER biomedico è ingannevolmente semplice per i moderni LLM.
La correttezza secondo le convenzioni del corpus dipende dalle convenzioni di annotazione, dai confini delle span, dalla granularità delle entità e dagli schemi di tipo.

Entità

—

Fonti

arXiv cs.AI — 2026-06-01