HLV come Selbstzweck: Preservare il pluralismo umano nel post-addestramento del NLP
Un recente position paper sottolinea l'importanza della Variazione dell'Etichetta Umana (HLV)—le differenze valide nell'annotazione che mostrano diversi punti di vista umani—come aspetto fondamentale (Selbstzweck) nell'elaborazione del linguaggio naturale (NLP). Ciò è particolarmente rilevante nel contesto dei grandi modelli linguistici (LLM) e delle tecniche di post-addestramento come l'allineamento basato sul feedback umano. In precedenza liquidata come semplice rumore, l'HLV è ora riconosciuta come un segnale prezioso per migliorare la robustezza del modello. Tuttavia, i dataset esistenti per l'apprendimento delle preferenze spesso fondono varie annotazioni in un'unica etichetta, cancellando punti di vista diversi a favore di un falso consenso. Gli autori sostengono che mantenere l'HLV è cruciale sia per l'allineamento pluralistico sia per la valutazione della sicurezza sociotecnica, che implica la valutazione del comportamento del modello in relazione alle interazioni umane e ai contesti sociali. Il paper è disponibile su arXiv con l'identificatore 2510.12817.
Fatti principali
- HLV si riferisce al disaccordo legittimo nell'annotazione che riflette la diversità delle prospettive umane.
- HLV è stata a lungo trattata come rumore nel NLP, ma ora è vista come un segnale per la robustezza del modello.
- Il paper si concentra sull'era degli LLM e dei metodi di post-addestramento come l'allineamento basato sul feedback umano.
- Gli attuali dataset per l'apprendimento delle preferenze collassano più annotazioni in un'unica etichetta.
- Preservare l'HLV è ritenuto necessario per l'allineamento pluralistico e la valutazione della sicurezza sociotecnica.
- Il paper chiede di trattare l'HLV come un Selbstzweck (valore intrinseco).
- Il paper è un position paper pubblicato su arXiv.
- Identificatore arXiv: 2510.12817.
Entità
Istituzioni
- arXiv