Convalida Auto-referenziale degli LLM: Criterio di Accordo Generativo-Valutativo

other · 2026-05-20

È stata stabilita una nuova misura di validità, nota come Accordo Generativo-Valutativo (GEA), per valutazioni adattive che utilizzano LLM. La GEA valuta se la funzione di punteggio di un LLM riflette accuratamente i livelli di abilità che la sua funzione generativa è stata progettata per produrre, affrontando il problema della convalida auto-referenziale quando lo stesso LLM crea item, simula risposte e le valuta. In una valutazione diretta iniziale di una valutazione adattiva a due stadi, il modello ha catturato circa metà della varianza prevista (r = 0,698) con un bias positivo coerente. Mentre la GEA ha mostrato una forte correlazione (r > 0,7) per abilità sintatticamente verificabili, era quasi zero per abilità di progettazione, e la sovrastima delle abilità basse ha gonfiato i punteggi vicino alla soglia di instradamento. La ricerca suggerisce che rubriche dettagliate e scomposte per abilità sono cruciali per migliorare la GEA, insieme a strategie di mitigazione aggiuntive.

Fatti principali

L'Accordo Generativo-Valutativo (GEA) è un nuovo criterio di validità per valutazioni adattive basate su LLM.
La GEA misura se la funzione di punteggio di un LLM recupera i livelli di abilità che la sua funzione generativa è stata istruita a produrre.
Il ciclo di convalida è auto-referenziale quando lo stesso LLM genera item, simula risposte e le valuta.
La prima misurazione diretta della GEA su una valutazione adattiva a due stadi ha recuperato circa metà della varianza prevista (r = 0,698).
È stato osservato un bias positivo sistematico nella valutazione.
La GEA era forte (r > 0,7) per abilità sintatticamente verificabili ma quasi zero per abilità di progettazione.
La sovrastima delle abilità basse ha gonfiato i punteggi vicino alla soglia di instradamento.
Rubriche granulari e scomposte per abilità sono proposte come meccanismo principale per rafforzare la GEA.

Entità

—

Fonti

arXiv cs.AI — 2026-05-20