ARTFEED — Contemporary Art Intelligence

Audit sulla ricerca in IA rivela una sistematica falsa rappresentazione delle capacità nelle valutazioni degli LLM

ai-technology · 2026-05-07

Un audit che ha analizzato 112.303 record candidati relativi a modelli linguistici di grandi dimensioni (LLM) dal gennaio 2022 all'aprile 2026 ha scoperto una diffusa falsa rappresentazione delle capacità nelle valutazioni. Dai dati filtrati, 18.574 articoli sono stati ritenuti ammissibili, di cui 4.766 testi completi recuperabili. La ricerca, utilizzando l'Epoch AI Capabilities Index riprodotto sotto Arena Elo e Artificial Analysis, ha evidenziato un 'gap di elicitazione pubblicativa' tra i modelli attuali e i benchmark all'avanguardia. I risultati, che illustrano come affermazioni vaghe sull'IA si propaghino attraverso citazioni e media, sono pubblicati su arXiv come 2605.04135v1, basati su un disegno di studio preregistrato.

Fatti principali

  • L'audit ha coperto 112.303 record candidati corrispondenti a parole chiave LLM dal 2022-01 al 2026-04
  • 18.574 articoli erano ammissibili, 4.766 testi completi sono stati recuperabili
  • Misurato il 'gap di elicitazione pubblicativa' tra i modelli testati e la frontiera contemporanea
  • Utilizzato l'Epoch AI Capabilities Index (ECI) riprodotto sotto Arena Elo e Artificial Analysis
  • Esempio: articolo del 2026 che valuta GPT-4o-mini zero-shot contro GPT-5.5 Pro e Claude Opus 4.7
  • Dettagli di configurazione scarsi e affermazioni astratte su 'IA' si propagano attraverso citazioni, media e politiche
  • Disegno di studio preregistrato
  • Pubblicato su arXiv come 2605.04135v1

Entità

Istituzioni

  • arXiv
  • Epoch AI

Fonti