Il dataset SciCoQA rivela che i LLM non riescono a rilevare le discrepanze tra articoli scientifici e codice
Un nuovo dataset chiamato SciCoQA, composto da 635 discrepanze tra articoli e codice (92 reali, 543 sintetiche), è stato introdotto per valutare se i modelli linguistici di grandi dimensioni (LLM) possono rilevare in modo affidabile le incongruenze tra articoli scientifici e il codice che li accompagna. Lo studio, pubblicato su arXiv (2601.12910), ha testato 22 modelli e ha scoperto che anche i migliori performer—Gemini 3.1 Pro e GPT-5 Mini—hanno rilevato solo il 46,7% delle discrepanze reali, evidenziando un divario critico nell'assicurazione automatica della qualità scientifica. Il dataset è stato costruito a partire da issue di GitHub e articoli sulla riproducibilità, con un pipeline di generazione sintetica che estende la copertura oltre l'IA a campi come la Fisica e la Biologia Quantitativa. È stata inoltre sviluppata una tassonomia dei tipi e delle categorie di discrepanza per caratterizzare le incongruenze.
Fatti principali
- Il dataset SciCoQA contiene 635 discrepanze tra articoli e codice.
- 92 discrepanze sono reali, 543 sono sintetiche.
- 22 LLM sono stati valutati sul dataset.
- Migliori modelli: Gemini 3.1 Pro e GPT-5 Mini.
- I migliori modelli rilevano solo il 46,7% delle discrepanze reali.
- Dataset costruito da issue di GitHub e articoli sulla riproducibilità.
- Pipeline sintetica si estende a Fisica, Biologia Quantitativa.
- Introdotta tassonomia dei tipi e delle categorie di discrepanza.
Entità
Istituzioni
- arXiv