ARTFEED — Contemporary Art Intelligence

RMGAP Benchmark Valuta la Generalizzazione dei Modelli di Ricompensa

other · 2026-05-06

I ricercatori hanno introdotto RMGAP, un benchmark per valutare come i modelli di ricompensa generalizzano attraverso diverse preferenze degli utenti nell'Apprendimento per Rinforzo dal Feedback Umano. Il benchmark comprende 1.097 istanze nei domini Chat, Scrittura, Ragionamento e Sicurezza. Per ogni prompt, sono state generate quattro risposte distinte con diversi profili linguistici per rappresentare preferenze variegate. Sono stati costruiti prompt personalizzati per veicolare preferenze specifiche, affrontando il limite dei benchmark esistenti che assumono una preferenza universale. Questo lavoro si concentra sulla capacità dei modelli di ricompensa di classificare correttamente le risposte allineate con diverse preferenze degli utenti, una lacuna critica negli attuali metodi di valutazione.

Fatti principali

  • Introdotto il benchmark RMGAP
  • 1.097 istanze nei domini Chat, Scrittura, Ragionamento e Sicurezza
  • Quattro risposte distinte per ogni prompt con diversi profili linguistici
  • Prompt personalizzati costruiti per veicolare preferenze specifiche
  • Affronta il limite dei benchmark esistenti che assumono una preferenza universale
  • Si concentra sulla generalizzabilità del modello di ricompensa
  • Contesto dell'Apprendimento per Rinforzo dal Feedback Umano
  • Valuta la capacità di classificare le risposte allineate con diverse preferenze

Entità

Fonti