Tre Modelli Concettuali dell'Annotazione RLHF: Estensione, Evidenza e Autorità

other · 2026-04-30

Un nuovo articolo su arXiv (2604.25895) distingue tre modelli normativi per il ruolo dei giudizi umani nell'Apprendimento per Rinforzo con Feedback Umano (RLHF). Il modello di 'estensione' tratta gli annotatori come estensori delle preferenze dei progettisti del sistema. Il modello di 'evidenza' vede gli annotatori fornire fatti indipendenti su questioni morali o sociali. Il modello di 'autorità' concede agli annotatori un'autorità indipendente come rappresentanti della popolazione. L'autore sostiene che questi modelli influenzano il modo in cui le pipeline RLHF dovrebbero sollecitare, validare e aggregare le annotazioni. L'articolo esamina studi RLHF fondamentali per mostrare come essi utilizzino implicitamente questi modelli e descrive le modalità di fallimento associate.

Fatti principali

L'articolo distingue tre modelli: estensione, evidenza, autorità
Estensione: gli annotatori estendono i giudizi dei progettisti
Evidenza: gli annotatori forniscono prove fattuali indipendenti
Autorità: gli annotatori hanno autorità come rappresentanti della popolazione
I modelli hanno implicazioni per sollecitare, validare e aggregare le annotazioni
L'esame di articoli RLHF fondamentali illustra l'uso implicito dei modelli
Vengono descritte le modalità di fallimento per ciascun modello

Entità

—

Fonti

arXiv cs.AI — 2026-04-29