Mitigare il bias cognitivo nell'RLHF attraverso la razionalità dipendente dal contesto
Un nuovo articolo su arXiv (2605.06895) propone di trattare il parametro di razionalità nell'apprendimento per rinforzo dal feedback umano (RLHF) come dipendente dal contesto e dall'annotazione, anziché come una costante fissa, per mitigare i bias cognitivi nei giudizi umani. Il modello standard di Boltzmann assume un'affidabilità uniforme degli annotatori, ma il feedback umano reale è influenzato da bias sistematici che variano contestualmente. Gli autori progettano un metodo per regolare la razionalità in base al contesto di annotazione, con l'obiettivo di rendere i modelli robusti rispetto al feedback umano imperfetto.
Fatti principali
- L'articolo arXiv 2605.06895 propone una razionalità dipendente dal contesto nell'RLHF
- L'RLHF standard utilizza un parametro di razionalità beta fisso
- Il feedback umano è influenzato da bias cognitivi
- Il metodo tratta la razionalità come dipendente dal contesto e dall'annotazione
- L'obiettivo è rendere i modelli robusti rispetto al feedback umano imperfetto
Entità
Istituzioni
- arXiv