Convalida Auto-referenziale degli LLM: Criterio di Accordo Generativo-Valutativo
È stata stabilita una nuova misura di validità, nota come Accordo Generativo-Valutativo (GEA), per valutazioni adattive che utilizzano LLM. La GEA valuta se la funzione di punteggio di un LLM riflette accuratamente i livelli di abilità che la sua funzione generativa è stata progettata per produrre, affrontando il problema della convalida auto-referenziale quando lo stesso LLM crea item, simula risposte e le valuta. In una valutazione diretta iniziale di una valutazione adattiva a due stadi, il modello ha catturato circa metà della varianza prevista (r = 0,698) con un bias positivo coerente. Mentre la GEA ha mostrato una forte correlazione (r > 0,7) per abilità sintatticamente verificabili, era quasi zero per abilità di progettazione, e la sovrastima delle abilità basse ha gonfiato i punteggi vicino alla soglia di instradamento. La ricerca suggerisce che rubriche dettagliate e scomposte per abilità sono cruciali per migliorare la GEA, insieme a strategie di mitigazione aggiuntive.
Fatti principali
- L'Accordo Generativo-Valutativo (GEA) è un nuovo criterio di validità per valutazioni adattive basate su LLM.
- La GEA misura se la funzione di punteggio di un LLM recupera i livelli di abilità che la sua funzione generativa è stata istruita a produrre.
- Il ciclo di convalida è auto-referenziale quando lo stesso LLM genera item, simula risposte e le valuta.
- La prima misurazione diretta della GEA su una valutazione adattiva a due stadi ha recuperato circa metà della varianza prevista (r = 0,698).
- È stato osservato un bias positivo sistematico nella valutazione.
- La GEA era forte (r > 0,7) per abilità sintatticamente verificabili ma quasi zero per abilità di progettazione.
- La sovrastima delle abilità basse ha gonfiato i punteggi vicino alla soglia di instradamento.
- Rubriche granulari e scomposte per abilità sono proposte come meccanismo principale per rafforzare la GEA.
Entità
—