Il dataset SciCoQA rivela che i LLM non riescono a rilevare le discrepanze tra articoli scientifici e codice

ai-technology · 2026-04-24

Un nuovo dataset chiamato SciCoQA, composto da 635 discrepanze tra articoli e codice (92 reali, 543 sintetiche), è stato introdotto per valutare se i modelli linguistici di grandi dimensioni (LLM) possono rilevare in modo affidabile le incongruenze tra articoli scientifici e il codice che li accompagna. Lo studio, pubblicato su arXiv (2601.12910), ha testato 22 modelli e ha scoperto che anche i migliori performer—Gemini 3.1 Pro e GPT-5 Mini—hanno rilevato solo il 46,7% delle discrepanze reali, evidenziando un divario critico nell'assicurazione automatica della qualità scientifica. Il dataset è stato costruito a partire da issue di GitHub e articoli sulla riproducibilità, con un pipeline di generazione sintetica che estende la copertura oltre l'IA a campi come la Fisica e la Biologia Quantitativa. È stata inoltre sviluppata una tassonomia dei tipi e delle categorie di discrepanza per caratterizzare le incongruenze.

Fatti principali

Il dataset SciCoQA contiene 635 discrepanze tra articoli e codice.
92 discrepanze sono reali, 543 sono sintetiche.
22 LLM sono stati valutati sul dataset.
Migliori modelli: Gemini 3.1 Pro e GPT-5 Mini.
I migliori modelli rilevano solo il 46,7% delle discrepanze reali.
Dataset costruito da issue di GitHub e articoli sulla riproducibilità.
Pipeline sintetica si estende a Fisica, Biologia Quantitativa.
Introdotta tassonomia dei tipi e delle categorie di discrepanza.

Il dataset SciCoQA rivela che i LLM non riescono a rilevare le discrepanze tra articoli scientifici e codice

Fatti principali

Entità

Istituzioni

Fonti