La valutazione dell'allineamento a livello di modello è insufficiente per le affermazioni di implementazione
Un recente studio pubblicato su arXiv sostiene che l'allineamento rilevante per l'implementazione non può essere determinato esclusivamente attraverso valutazioni a livello di modello. Gli autori suggeriscono che le affermazioni di allineamento dovrebbero essere categorizzate in base al livello di evidenza: modello, risposta, interazione o implementazione. Una revisione organizzata di undici benchmark di allineamento, ampliata per includere un totale di sedici benchmark e valutata utilizzando una rubrica a otto dimensioni (kappa di Cohen = 0,87), ha rivelato una mancanza di supporto per la verifica rivolta all'utente in tutti i benchmark analizzati, con una minima controllabilità del processo. I pochi benchmark di interazione trovati includono tau-be. Questo articolo mette in discussione la pratica comune di fare affidamento su metriche a livello di modello per sostenere affermazioni riguardanti l'allineamento nei sistemi implementati.
Fatti principali
- L'articolo sostiene che l'allineamento rilevante per l'implementazione non può essere dedotto dalla sola valutazione a livello di modello.
- Le affermazioni di allineamento dovrebbero essere indicizzate a livello di modello, risposta, interazione o implementazione.
- Audit strutturato di 11 benchmark di allineamento esteso a un corpus di 16 benchmark.
- Doppia codifica rispetto a una rubrica a otto dimensioni con kappa di Cohen = 0,87.
- Supporto per la verifica rivolta all'utente assente in ogni benchmark esaminato.
- Controllabilità del processo quasi assente nei benchmark.
- Pochi benchmark interazionali identificati, incluso tau-be.
- L'articolo sfida l'uso dei punteggi a livello di modello per le affermazioni di implementazione.
Entità
Istituzioni
- arXiv