Audit sulla ricerca in IA rivela una sistematica falsa rappresentazione delle capacità nelle valutazioni degli LLM

ai-technology · 2026-05-07

Un audit che ha analizzato 112.303 record candidati relativi a modelli linguistici di grandi dimensioni (LLM) dal gennaio 2022 all'aprile 2026 ha scoperto una diffusa falsa rappresentazione delle capacità nelle valutazioni. Dai dati filtrati, 18.574 articoli sono stati ritenuti ammissibili, di cui 4.766 testi completi recuperabili. La ricerca, utilizzando l'Epoch AI Capabilities Index riprodotto sotto Arena Elo e Artificial Analysis, ha evidenziato un 'gap di elicitazione pubblicativa' tra i modelli attuali e i benchmark all'avanguardia. I risultati, che illustrano come affermazioni vaghe sull'IA si propaghino attraverso citazioni e media, sono pubblicati su arXiv come 2605.04135v1, basati su un disegno di studio preregistrato.

Fatti principali

L'audit ha coperto 112.303 record candidati corrispondenti a parole chiave LLM dal 2022-01 al 2026-04
18.574 articoli erano ammissibili, 4.766 testi completi sono stati recuperabili
Misurato il 'gap di elicitazione pubblicativa' tra i modelli testati e la frontiera contemporanea
Utilizzato l'Epoch AI Capabilities Index (ECI) riprodotto sotto Arena Elo e Artificial Analysis
Esempio: articolo del 2026 che valuta GPT-4o-mini zero-shot contro GPT-5.5 Pro e Claude Opus 4.7
Dettagli di configurazione scarsi e affermazioni astratte su 'IA' si propagano attraverso citazioni, media e politiche
Disegno di studio preregistrato
Pubblicato su arXiv come 2605.04135v1

Audit sulla ricerca in IA rivela una sistematica falsa rappresentazione delle capacità nelle valutazioni degli LLM

Fatti principali

Entità

Istituzioni

Fonti