RMGAP Benchmark Valuta la Generalizzazione dei Modelli di Ricompensa

other · 2026-05-06

I ricercatori hanno introdotto RMGAP, un benchmark per valutare come i modelli di ricompensa generalizzano attraverso diverse preferenze degli utenti nell'Apprendimento per Rinforzo dal Feedback Umano. Il benchmark comprende 1.097 istanze nei domini Chat, Scrittura, Ragionamento e Sicurezza. Per ogni prompt, sono state generate quattro risposte distinte con diversi profili linguistici per rappresentare preferenze variegate. Sono stati costruiti prompt personalizzati per veicolare preferenze specifiche, affrontando il limite dei benchmark esistenti che assumono una preferenza universale. Questo lavoro si concentra sulla capacità dei modelli di ricompensa di classificare correttamente le risposte allineate con diverse preferenze degli utenti, una lacuna critica negli attuali metodi di valutazione.

Fatti principali

Introdotto il benchmark RMGAP
1.097 istanze nei domini Chat, Scrittura, Ragionamento e Sicurezza
Quattro risposte distinte per ogni prompt con diversi profili linguistici
Prompt personalizzati costruiti per veicolare preferenze specifiche
Affronta il limite dei benchmark esistenti che assumono una preferenza universale
Si concentra sulla generalizzabilità del modello di ricompensa
Contesto dell'Apprendimento per Rinforzo dal Feedback Umano
Valuta la capacità di classificare le risposte allineate con diverse preferenze

Entità

—

Fonti

arXiv cs.AI — 2026-05-05