ARTFEED — Contemporary Art Intelligence

RCSB PDB AI Help Desk: RAG per il supporto al deposito di proteine

other · 2026-04-29

Un Help Desk basato sull'intelligenza artificiale è stato creato da ricercatori utilizzando il Retrieval-Augmented Generation (RAG) per assistere i biologi strutturali nell'invio di strutture proteiche alla Protein Data Bank (PDB). Questo sistema, basato su LangChain e che incorpora un archivio pgvector (PostgreSQL) insieme a GPT-4.1-mini, mira ad alleviare le difficoltà incontrate dai biocuratori RCSB PDB, che gestiscono oltre il 40% delle deposizioni globali. Nel 2025, l'Help Desk ha elaborato circa 19.000 messaggi relativi a circa 8.000 voci. Il framework RAG utilizza pymupdf4llm per l'estrazione di PDF preservando il Markdown, impiega un chunking dei documenti in due fasi e incorpora il recupero Maximal Marginal Relevance, insieme a un guardrail tematico e un prompt di sistema personalizzato. Il PDB ha ricevuto oltre 245.000 strutture 3D validate sperimentalmente, curate da circa 20 biocuratori esperti del wwPDB.

Fatti principali

  • L'AI Help Desk utilizza il Retrieval-Augmented Generation (RAG) per il supporto al deposito di strutture proteiche.
  • Sistema basato su LangChain con archivio pgvector (PostgreSQL) e GPT-4.1-mini.
  • I biocuratori RCSB PDB gestiscono oltre il 40% delle deposizioni globali.
  • Circa 19.000 messaggi in circa 8.000 voci ricevuti nel 2025.
  • Oltre 245.000 strutture 3D determinate sperimentalmente nel PDB.
  • ~20 biocuratori esperti in tutto il wwPDB convalidano e biocurano i dati in arrivo.
  • Il sistema utilizza pymupdf4llm per l'estrazione PDF, chunking in due fasi e recupero Maximal Marginal Relevance.
  • Un guardrail tematico filtra le query fuori tema; il prompt di sistema impedisce l'esposizione di terminologia interna.

Entità

Istituzioni

  • RCSB PDB
  • Protein Data Bank (PDB)
  • wwPDB

Fonti