La valutazione dell'allineamento a livello di modello è insufficiente per le affermazioni di implementazione

publication · 2026-05-07

Un recente studio pubblicato su arXiv sostiene che l'allineamento rilevante per l'implementazione non può essere determinato esclusivamente attraverso valutazioni a livello di modello. Gli autori suggeriscono che le affermazioni di allineamento dovrebbero essere categorizzate in base al livello di evidenza: modello, risposta, interazione o implementazione. Una revisione organizzata di undici benchmark di allineamento, ampliata per includere un totale di sedici benchmark e valutata utilizzando una rubrica a otto dimensioni (kappa di Cohen = 0,87), ha rivelato una mancanza di supporto per la verifica rivolta all'utente in tutti i benchmark analizzati, con una minima controllabilità del processo. I pochi benchmark di interazione trovati includono tau-be. Questo articolo mette in discussione la pratica comune di fare affidamento su metriche a livello di modello per sostenere affermazioni riguardanti l'allineamento nei sistemi implementati.

Fatti principali

L'articolo sostiene che l'allineamento rilevante per l'implementazione non può essere dedotto dalla sola valutazione a livello di modello.
Le affermazioni di allineamento dovrebbero essere indicizzate a livello di modello, risposta, interazione o implementazione.
Audit strutturato di 11 benchmark di allineamento esteso a un corpus di 16 benchmark.
Doppia codifica rispetto a una rubrica a otto dimensioni con kappa di Cohen = 0,87.
Supporto per la verifica rivolta all'utente assente in ogni benchmark esaminato.
Controllabilità del processo quasi assente nei benchmark.
Pochi benchmark interazionali identificati, incluso tau-be.
L'articolo sfida l'uso dei punteggi a livello di modello per le affermazioni di implementazione.

La valutazione dell'allineamento a livello di modello è insufficiente per le affermazioni di implementazione

Fatti principali

Entità

Istituzioni

Fonti