ARTFEED — Contemporary Art Intelligence

SciHorizon-GENE Benchmark Testa il Ragionamento Genetico degli LLM

ai-technology · 2026-05-25

I ricercatori hanno introdotto SciHorizon-GENE, un benchmark su larga scala per valutare i modelli linguistici di grandi dimensioni (LLM) nel ragionamento gene-funzione. Il benchmark copre oltre 190.000 geni umani e include più di 540.000 domande derivate da database biologici autorevoli. Valuta gli LLM secondo quattro prospettive biologiche: sensibilità all'attenzione della ricerca, tendenza all'allucinazione, coerenza delle risposte e profondità del ragionamento. Il lavoro mira a colmare una lacuna nell'interpretazione affidabile basata sulla conoscenza per l'analisi degli atlanti cellulari.

Fatti principali

  • SciHorizon-GENE è un benchmark per LLM nelle scienze della vita.
  • Copre oltre 190.000 geni umani.
  • Il benchmark include più di 540.000 domande.
  • Le domande sono derivate da database biologici autorevoli.
  • Valuta gli LLM secondo quattro prospettive biologiche.
  • Il benchmark si concentra sul ragionamento gene-funzione.
  • Affronta l'interpretazione degli atlanti cellulari potenziata dalla conoscenza.
  • Lo studio è pubblicato su arXiv (2601.12805).

Entità

Istituzioni

  • arXiv

Fonti