Rilasci di dati a livello di item standardizzati richiesti per la valutazione dell'IA
Un recente position paper sostiene l'istituzione di dati di benchmark a livello di item standardizzati come quadro di riferimento fondamentale per la valutazione dell'IA. Le valutazioni attuali sono ostacolate da una selezione di item poco definita, disallineamento con i costrutti e generalizzazione inadeguata, principalmente a causa di un'enfasi eccessiva sui punteggi aggregati dei modelli. Senza dati a livello di item, diventa impossibile convalidare le affermazioni, con conseguenti dichiarazioni esagerate delle capacità, sforzi di ricerca fuorvianti e fiducia malriposta nei sistemi operativi. Gli autori sostengono che le valutazioni valide devono basarsi su prove empiriche provenienti dalle risposte a livello di item, suggerendo che il rilascio standardizzato di tali dati è essenziale per migliorare trasparenza, replicabilità e verificabilità nella valutazione dell'IA. Per illustrarne la praticità, hanno creato OpenEval, un archivio a livello di item contenente 10 milioni di risposte su 155.000 item.
Fatti principali
- Il paper sostiene i dati di benchmark a livello di item standardizzati come infrastruttura predefinita per la valutazione dell'IA.
- Le valutazioni attuali soffrono di selezione di item sottospecificata, disallineamento dei costrutti e scarsa generalizzazione.
- La causa principale è l'enfasi malriposta sui punteggi aggregati dei modelli.
- Senza prove a livello di item, le affermazioni di validità non possono essere valutate.
- Il rilascio standardizzato consente trasparenza, replicabilità e verificabilità.
- Gli autori hanno costruito OpenEval, un archivio a livello di item di 10 milioni di risposte su 155.000 item.
- Il paper è un position paper di arXiv (2604.03244v2).
- L'attenzione è sul miglioramento della validità della valutazione dell'IA.
Entità
Istituzioni
- arXiv