PReMISE: Un Framework per il Controllo delle Rubriche dei Giudici LLM
È stato lanciato un nuovo framework chiamato PReMISE (Policy Rubrics as Measurement Specifications for LLM Judges) per valutare e controllare le rubriche utilizzate dai giudici LLM. Questa iniziativa affronta il problema delle rubriche ambigue, che possono favorire risposte ben articolate ma di fatto errate, come quelle che richiedono risposte 'utili e fattuali'. PReMISE identifica insiemi di rubriche a livello di policy a partire da dati di preferenze umane a coppie e valuta qualsiasi insieme di rubriche in base a quattro criteri: adeguatezza strutturale, affidabilità, aderenza alle preferenze e robustezza avversariale. I risultati indicano che nessuna singola fonte di rubriche grezze raggiunge simultaneamente affidabilità, predittività delle preferenze e robustezza avversariale, e un'elevata concordanza tra valutatori non garantisce una bassa sfruttabilità. PReMISE eccelle in modo unico in applicabilità, specificità e altre metriche, con l'obiettivo di migliorare le specifiche di misurazione per i giudici LLM e promuovere valutazioni più precise.
Fatti principali
- PReMISE sta per Policy Rubrics as Measurement Specifications for LLM Judges.
- Il framework scopre insiemi di rubriche a livello di policy a partire da dati di preferenze umane a coppie.
- Controlla gli insiemi di rubriche lungo quattro assi: adeguatezza strutturale, affidabilità, aderenza alle preferenze e robustezza avversariale.
- Nessuna singola fonte di rubriche grezze è simultaneamente affidabile, predittiva delle preferenze e robusta avversarialmente.
- Un'elevata concordanza tra valutatori non implica una bassa sfruttabilità.
- PReMISE è l'unica fonte di rubriche a ottenere punteggi non banali in applicabilità e specificità.
- La ricerca è pubblicata su arXiv con ID 2605.30803.
- Il lavoro affronta il problema delle rubriche vaghe che premiano risposte di fatto errate.
Entità
Istituzioni
- arXiv