StructSense: Framework AI per l'Estrazione Strutturata di Informazioni dalla Letteratura Scientifica

ai-technology · 2026-05-23

Un nuovo framework open-source chiamato StructSense è stato sviluppato da ricercatori per estrarre dati strutturati dalla letteratura scientifica in modo modulare e indipendente dal compito. Questo framework migliora l'estrazione specifica del dominio incorporando conoscenza simbolica guidata da ontologie, raffinamento autovalutativo e validazione umana. StructSense è stato testato su tre compiti con diverse complessità semantiche, raggiungendo un'accuratezza del 91–100% nell'estrazione basata su schemi di strumenti di valutazione, 86–93% nell'estrazione complessiva di metadati e risorse da articoli scientifici e 58–75% di accuratezza nel riconoscimento di entità nominate (NER) da testi di neuroscienze che coinvolgono 8.882 entità. In due benchmark NER biomedici, NCBI Disease e S800 Species, ha registrato un richiamo rilassato ≥90% e una corrispondenza esatta del 62,5%. Questa ricerca è disponibile su arXiv, riferimento 2507.03674.

Fatti principali

StructSense è un framework modulare, indipendente dal compito e open-source.
Integra conoscenza simbolica guidata da ontologie, raffinamento autovalutativo agentivo e validazione umana nel ciclo.
Ha raggiunto un'accuratezza del 91–100% nell'estrazione basata su schemi di strumenti di valutazione.
Ha raggiunto un'accuratezza complessiva dell'86–93% nell'estrazione di metadati e risorse da articoli scientifici.
Ha raggiunto un'accuratezza delle etichette del 58–75% nel NER da letteratura neuroscientifica su 8.882 entità.
Sui benchmark NCBI Disease e S800 Species, ha raggiunto un richiamo rilassato ≥90% e una corrispondenza esatta del 62,5%.
Pubblicato su arXiv con riferimento 2507.03674.
Affronta le limitazioni dei LLM in domini specializzati.

StructSense: Framework AI per l'Estrazione Strutturata di Informazioni dalla Letteratura Scientifica

Fatti principali

Entità

Istituzioni

Fonti