RCSB PDB AI Help Desk: RAG per il supporto al deposito di proteine
Un Help Desk basato sull'intelligenza artificiale è stato creato da ricercatori utilizzando il Retrieval-Augmented Generation (RAG) per assistere i biologi strutturali nell'invio di strutture proteiche alla Protein Data Bank (PDB). Questo sistema, basato su LangChain e che incorpora un archivio pgvector (PostgreSQL) insieme a GPT-4.1-mini, mira ad alleviare le difficoltà incontrate dai biocuratori RCSB PDB, che gestiscono oltre il 40% delle deposizioni globali. Nel 2025, l'Help Desk ha elaborato circa 19.000 messaggi relativi a circa 8.000 voci. Il framework RAG utilizza pymupdf4llm per l'estrazione di PDF preservando il Markdown, impiega un chunking dei documenti in due fasi e incorpora il recupero Maximal Marginal Relevance, insieme a un guardrail tematico e un prompt di sistema personalizzato. Il PDB ha ricevuto oltre 245.000 strutture 3D validate sperimentalmente, curate da circa 20 biocuratori esperti del wwPDB.
Fatti principali
- L'AI Help Desk utilizza il Retrieval-Augmented Generation (RAG) per il supporto al deposito di strutture proteiche.
- Sistema basato su LangChain con archivio pgvector (PostgreSQL) e GPT-4.1-mini.
- I biocuratori RCSB PDB gestiscono oltre il 40% delle deposizioni globali.
- Circa 19.000 messaggi in circa 8.000 voci ricevuti nel 2025.
- Oltre 245.000 strutture 3D determinate sperimentalmente nel PDB.
- ~20 biocuratori esperti in tutto il wwPDB convalidano e biocurano i dati in arrivo.
- Il sistema utilizza pymupdf4llm per l'estrazione PDF, chunking in due fasi e recupero Maximal Marginal Relevance.
- Un guardrail tematico filtra le query fuori tema; il prompt di sistema impedisce l'esposizione di terminologia interna.
Entità
Istituzioni
- RCSB PDB
- Protein Data Bank (PDB)
- wwPDB