ARTFEED — Contemporary Art Intelligence

Mitigare il bias cognitivo nell'RLHF attraverso la razionalità dipendente dal contesto

other · 2026-05-11

Un nuovo articolo su arXiv (2605.06895) propone di trattare il parametro di razionalità nell'apprendimento per rinforzo dal feedback umano (RLHF) come dipendente dal contesto e dall'annotazione, anziché come una costante fissa, per mitigare i bias cognitivi nei giudizi umani. Il modello standard di Boltzmann assume un'affidabilità uniforme degli annotatori, ma il feedback umano reale è influenzato da bias sistematici che variano contestualmente. Gli autori progettano un metodo per regolare la razionalità in base al contesto di annotazione, con l'obiettivo di rendere i modelli robusti rispetto al feedback umano imperfetto.

Fatti principali

  • L'articolo arXiv 2605.06895 propone una razionalità dipendente dal contesto nell'RLHF
  • L'RLHF standard utilizza un parametro di razionalità beta fisso
  • Il feedback umano è influenzato da bias cognitivi
  • Il metodo tratta la razionalità come dipendente dal contesto e dall'annotazione
  • L'obiettivo è rendere i modelli robusti rispetto al feedback umano imperfetto

Entità

Istituzioni

  • arXiv

Fonti