Mitigare il bias cognitivo nell'RLHF attraverso la razionalità dipendente dal contesto

other · 2026-05-11

Un nuovo articolo su arXiv (2605.06895) propone di trattare il parametro di razionalità nell'apprendimento per rinforzo dal feedback umano (RLHF) come dipendente dal contesto e dall'annotazione, anziché come una costante fissa, per mitigare i bias cognitivi nei giudizi umani. Il modello standard di Boltzmann assume un'affidabilità uniforme degli annotatori, ma il feedback umano reale è influenzato da bias sistematici che variano contestualmente. Gli autori progettano un metodo per regolare la razionalità in base al contesto di annotazione, con l'obiettivo di rendere i modelli robusti rispetto al feedback umano imperfetto.

Fatti principali

L'articolo arXiv 2605.06895 propone una razionalità dipendente dal contesto nell'RLHF
L'RLHF standard utilizza un parametro di razionalità beta fisso
Il feedback umano è influenzato da bias cognitivi
Il metodo tratta la razionalità come dipendente dal contesto e dall'annotazione
L'obiettivo è rendere i modelli robusti rispetto al feedback umano imperfetto

Mitigare il bias cognitivo nell'RLHF attraverso la razionalità dipendente dal contesto

Fatti principali

Entità

Istituzioni

Fonti