Lit2Vec Workflow Crea un Corpus di Ricerca Chimica per Applicazioni di IA
È stato sviluppato un flusso di lavoro riproducibile chiamato Lit2Vec per costruire e validare un corpus specializzato di chimica dal Semantic Scholar Open Research Corpus. Questa metodologia impiega uno screening conservativo delle licenze basato sui metadati utilizzando dati da Unpaywall, OpenAlex e Crossref. Il corpus di studio interno risultante contiene 582.683 articoli di ricerca full-text specifici per la chimica con testo strutturato e metadati completi inclusi abstract e informazioni sulle licenze. Per migliorare l'utilità per applicazioni successive, un sottoinsieme idoneo ha ricevuto riassunti brevi generati automaticamente e annotazioni multi-etichetta attraverso 18 domini della chimica. La validazione tecnica ha coperto la conformità dello schema, la riproducibilità degli embedding, la qualità del testo e la coerenza dei metadati. Gli embedding a livello di paragrafo sono stati generati utilizzando il modello intfloat/e5-large-v2, con il corpus organizzato in blocchi di paragrafi consapevoli dei token. Il flusso di lavoro è stato documentato nella preprint arXiv 2604.12498v1, annunciata come un contributo interdisciplinare.
Fatti principali
- Lit2Vec è un flusso di lavoro riproducibile per costruire corpora di chimica
- Il corpus contiene 582.683 articoli di ricerca full-text specifici per la chimica
- Lo screening delle licenze utilizza metadati di Unpaywall, OpenAlex e Crossref
- Gli embedding a livello di paragrafo sono generati con il modello intfloat/e5-large-v2
- Un sottoinsieme è arricchito con riassunti generati automaticamente e annotazioni in 18 domini
- La validazione tecnica copre la conformità dello schema e la riproducibilità degli embedding
- Il flusso di lavoro è documentato nella preprint arXiv 2604.12498v1
- Il corpus è progettato per applicazioni di recupero e text-mining successive
Entità
Istituzioni
- Semantic Scholar Open Research Corpus
- Unpaywall
- OpenAlex
- Crossref
- arXiv