SciHorizon-GENE Benchmark Testa il Ragionamento Genetico degli LLM
I ricercatori hanno introdotto SciHorizon-GENE, un benchmark su larga scala per valutare i modelli linguistici di grandi dimensioni (LLM) nel ragionamento gene-funzione. Il benchmark copre oltre 190.000 geni umani e include più di 540.000 domande derivate da database biologici autorevoli. Valuta gli LLM secondo quattro prospettive biologiche: sensibilità all'attenzione della ricerca, tendenza all'allucinazione, coerenza delle risposte e profondità del ragionamento. Il lavoro mira a colmare una lacuna nell'interpretazione affidabile basata sulla conoscenza per l'analisi degli atlanti cellulari.
Fatti principali
- SciHorizon-GENE è un benchmark per LLM nelle scienze della vita.
- Copre oltre 190.000 geni umani.
- Il benchmark include più di 540.000 domande.
- Le domande sono derivate da database biologici autorevoli.
- Valuta gli LLM secondo quattro prospettive biologiche.
- Il benchmark si concentra sul ragionamento gene-funzione.
- Affronta l'interpretazione degli atlanti cellulari potenziata dalla conoscenza.
- Lo studio è pubblicato su arXiv (2601.12805).
Entità
Istituzioni
- arXiv