ARTFEED — Contemporary Art Intelligence

Il Ragionamento dell'IA Migliora la Scoperta di Biomarcatori nella Ricerca sul Cancro

ai-technology · 2026-04-20

Un nuovo studio dimostra come il ragionamento dei modelli linguistici di grandi dimensioni possa migliorare la scoperta di biomarcatori nella ricerca sul cancro. I ricercatori hanno addestrato un modello Mamba SSM sui dati RNA-seq di TCGA-BRCA ed estratto i primi 50 geni utilizzando metodi di salienza del gradiente. Il set grezzo di 50 geni ha ottenuto risultati peggiori rispetto a una baseline di 5.000 geni per varianza, raggiungendo un AUC di 0,832 contro 0,903. DeepSeek-R1 ha quindi valutato ogni gene candidato utilizzando un ragionamento strutturato a catena di pensiero per produrre un set raffinato di 17 geni. Questo set filtrato dal LLM ha ottenuto prestazioni superiori con un AUC di 0,927 utilizzando 294 volte meno caratteristiche rispetto alla baseline. Un audit di fedeltà utilizzando i database COSMIC CGC, OncoKB e PAM50 ha rivelato che 6 dei 17 geni selezionati (35,3%) sono biomarcatori BRCA validati. Lo studio, documentato nella preprint arXiv 2604.14334v2, esplora se la qualità del ragionamento si correli con le prestazioni a valle nel filtrare i fattori confondenti della composizione tissutale. La salienza del gradiente dei modelli di sequenza profonda evidenzia efficientemente i biomarcatori candidati, ma può essere contaminata da fattori confondenti che degradano le prestazioni del classificatore. La ricerca affronta la questione se il ragionamento a catena di pensiero dei LLM possa filtrare efficacemente questi contaminanti. Tra i geni in input, 10 dei 16 geni BRCA noti erano presenti prima del filtraggio.

Fatti principali

  • Mamba SSM addestrato sui dati RNA-seq di TCGA-BRCA
  • I primi 50 geni estratti mediante salienza del gradiente
  • DeepSeek-R1 ha utilizzato il ragionamento strutturato a catena di pensiero
  • Il set finale ridotto a 17 geni dopo il filtraggio LLM
  • Il set filtrato LLM ha raggiunto AUC 0,927 vs baseline 0,903
  • Il set grezzo di 50 geni ha ottenuto prestazioni peggiori con AUC 0,832
  • 6 dei 17 geni selezionati validati come biomarcatori BRCA
  • Studio pubblicato come preprint arXiv 2604.14334v2

Entità

Fonti