Classifica di Confidenza Adattiva al Margine per un Giudizio Affidabile degli LLM
Una nuova tecnica è stata introdotta dai ricercatori per migliorare l'affidabilità dei grandi modelli linguistici (LLM) quando le loro valutazioni devono corrispondere al consenso umano. Questo metodo affronta una carenza negli attuali framework di verifica delle ipotesi, come quello di Jung et al. (2025), che presuppongono erroneamente una relazione diretta tra la confidenza del modello e la probabilità di disaccordo umano. Invece di dipendere da segnali euristici, la nuova strategia sviluppa uno stimatore di confidenza specializzato. Incorpora diversità annotativa simulata e un sistema di ranking basato sul margine per rappresentare accuratamente quanto un LLM distingua tra accordo e disaccordo umano. Il team ha anche stabilito garanzie di generalizzazione per questo stimatore, evidenziando un compromesso dipendente dal margine che aiuta in un processo di addestramento adattivo. Quando applicato a test a sequenza fissa, questo metodo produce classifiche di confidenza più affidabili.
Fatti principali
- Il metodo affronta la violazione dell'assunzione di monotonicità nella stima della confidenza degli LLM.
- Utilizza diversità annotativa simulata e ranking basato sul margine.
- Deriva garanzie di generalizzazione con un compromesso dipendente dal margine.
- Viene proposta una procedura di addestramento adattivo dello stimatore.
- Integrato in test a sequenza fissa per una maggiore affidabilità.
- Si basa sul lavoro di Jung et al. (2025).
- Si concentra sull'allineamento dei giudizi degli LLM con l'accordo umano.
- Pubblicato su arXiv con ID 2605.15416.
Entità
Istituzioni
- arXiv