StructSense: Framework AI per l'Estrazione Strutturata di Informazioni dalla Letteratura Scientifica
Un nuovo framework open-source chiamato StructSense è stato sviluppato da ricercatori per estrarre dati strutturati dalla letteratura scientifica in modo modulare e indipendente dal compito. Questo framework migliora l'estrazione specifica del dominio incorporando conoscenza simbolica guidata da ontologie, raffinamento autovalutativo e validazione umana. StructSense è stato testato su tre compiti con diverse complessità semantiche, raggiungendo un'accuratezza del 91–100% nell'estrazione basata su schemi di strumenti di valutazione, 86–93% nell'estrazione complessiva di metadati e risorse da articoli scientifici e 58–75% di accuratezza nel riconoscimento di entità nominate (NER) da testi di neuroscienze che coinvolgono 8.882 entità. In due benchmark NER biomedici, NCBI Disease e S800 Species, ha registrato un richiamo rilassato ≥90% e una corrispondenza esatta del 62,5%. Questa ricerca è disponibile su arXiv, riferimento 2507.03674.
Fatti principali
- StructSense è un framework modulare, indipendente dal compito e open-source.
- Integra conoscenza simbolica guidata da ontologie, raffinamento autovalutativo agentivo e validazione umana nel ciclo.
- Ha raggiunto un'accuratezza del 91–100% nell'estrazione basata su schemi di strumenti di valutazione.
- Ha raggiunto un'accuratezza complessiva dell'86–93% nell'estrazione di metadati e risorse da articoli scientifici.
- Ha raggiunto un'accuratezza delle etichette del 58–75% nel NER da letteratura neuroscientifica su 8.882 entità.
- Sui benchmark NCBI Disease e S800 Species, ha raggiunto un richiamo rilassato ≥90% e una corrispondenza esatta del 62,5%.
- Pubblicato su arXiv con riferimento 2507.03674.
- Affronta le limitazioni dei LLM in domini specializzati.
Entità
Istituzioni
- arXiv