Il bootstrap multilivello migliora la riproducibilità della valutazione degli LLM
Un nuovo studio da arXiv introduce un approccio di bootstrap multilivello per modellare il comportamento degli annotatori nelle valutazioni dei modelli linguistici di grandi dimensioni (LLM), affrontando la crisi di riproducibilità nell'IA. Il metodo utilizza identificatori di valutatore persistenti per catturare la varianza individuale, superando i limiti delle pratiche standard che si basano su 3-5 annotazioni per elemento senza tracciare l'identità dell'annotatore. L'approccio simula realisticamente come la ripetibilità sperimentale migliora all'aumentare del pool di annotatori, fornendo un quadro per valutazioni più affidabili della sicurezza e dell'affidabilità degli LLM.
Fatti principali
- Il documento arXiv 2605.13801 propone il bootstrap multilivello per la modellazione degli annotatori.
- La valutazione standard utilizza 3-5 annotazioni per elemento senza ID di valutatore persistenti.
- Il metodo modella la varianza individuale degli annotatori tra gli elementi.
- Mira a migliorare la riproducibilità nelle valutazioni degli LLM.
- Affronta la crisi di riproducibilità nella ricerca sull'IA.
- Si concentra su sicurezza, robustezza e affidabilità dell'IA generativa.
- I valutatori umani introducono bias divergenti e opinioni soggettive.
- Esistono pochi dati su come la ripetibilità migliora con pool di annotatori più grandi.
Entità
Istituzioni
- arXiv