SciHorizon-GENE Benchmark Testa il Ragionamento Genetico degli LLM

ai-technology · 2026-05-25

I ricercatori hanno introdotto SciHorizon-GENE, un benchmark su larga scala per valutare i modelli linguistici di grandi dimensioni (LLM) nel ragionamento gene-funzione. Il benchmark copre oltre 190.000 geni umani e include più di 540.000 domande derivate da database biologici autorevoli. Valuta gli LLM secondo quattro prospettive biologiche: sensibilità all'attenzione della ricerca, tendenza all'allucinazione, coerenza delle risposte e profondità del ragionamento. Il lavoro mira a colmare una lacuna nell'interpretazione affidabile basata sulla conoscenza per l'analisi degli atlanti cellulari.

Fatti principali

SciHorizon-GENE è un benchmark per LLM nelle scienze della vita.
Copre oltre 190.000 geni umani.
Il benchmark include più di 540.000 domande.
Le domande sono derivate da database biologici autorevoli.
Valuta gli LLM secondo quattro prospettive biologiche.
Il benchmark si concentra sul ragionamento gene-funzione.
Affronta l'interpretazione degli atlanti cellulari potenziata dalla conoscenza.
Lo studio è pubblicato su arXiv (2601.12805).

SciHorizon-GENE Benchmark Testa il Ragionamento Genetico degli LLM

Fatti principali

Entità

Istituzioni

Fonti