ARTFEED — Contemporary Art Intelligence

Lit2Vec Workflow Crea un Corpus di Ricerca Chimica per Applicazioni di IA

ai-technology · 2026-04-15

È stato sviluppato un flusso di lavoro riproducibile chiamato Lit2Vec per costruire e validare un corpus specializzato di chimica dal Semantic Scholar Open Research Corpus. Questa metodologia impiega uno screening conservativo delle licenze basato sui metadati utilizzando dati da Unpaywall, OpenAlex e Crossref. Il corpus di studio interno risultante contiene 582.683 articoli di ricerca full-text specifici per la chimica con testo strutturato e metadati completi inclusi abstract e informazioni sulle licenze. Per migliorare l'utilità per applicazioni successive, un sottoinsieme idoneo ha ricevuto riassunti brevi generati automaticamente e annotazioni multi-etichetta attraverso 18 domini della chimica. La validazione tecnica ha coperto la conformità dello schema, la riproducibilità degli embedding, la qualità del testo e la coerenza dei metadati. Gli embedding a livello di paragrafo sono stati generati utilizzando il modello intfloat/e5-large-v2, con il corpus organizzato in blocchi di paragrafi consapevoli dei token. Il flusso di lavoro è stato documentato nella preprint arXiv 2604.12498v1, annunciata come un contributo interdisciplinare.

Fatti principali

  • Lit2Vec è un flusso di lavoro riproducibile per costruire corpora di chimica
  • Il corpus contiene 582.683 articoli di ricerca full-text specifici per la chimica
  • Lo screening delle licenze utilizza metadati di Unpaywall, OpenAlex e Crossref
  • Gli embedding a livello di paragrafo sono generati con il modello intfloat/e5-large-v2
  • Un sottoinsieme è arricchito con riassunti generati automaticamente e annotazioni in 18 domini
  • La validazione tecnica copre la conformità dello schema e la riproducibilità degli embedding
  • Il flusso di lavoro è documentato nella preprint arXiv 2604.12498v1
  • Il corpus è progettato per applicazioni di recupero e text-mining successive

Entità

Istituzioni

  • Semantic Scholar Open Research Corpus
  • Unpaywall
  • OpenAlex
  • Crossref
  • arXiv

Fonti