SelectiveRM: Trasporto Ottimale per la Modellazione delle Ricompense in LLM da Preferenze Rumorose

ai-technology · 2026-05-09

Un nuovo framework chiamato SelectiveRM è stato introdotto dai ricercatori per migliorare la modellazione delle ricompense nell'Apprendimento per Rinforzo dal Feedback Umano (RLHF) utilizzando il trasporto ottimale. I metodi di addestramento tradizionali spesso si adattano eccessivamente al rumore presente nei dataset di preferenze del mondo reale, il che può essere problematico. Le attuali tecniche di denoising tipicamente assumono rumore uniforme, trascurando le complessità delle preferenze linguistiche. SelectiveRM offre una Discrepanza di Coerenza Congiunta per allineare meglio le previsioni del modello con la distribuzione dei dati di preferenza. Inoltre, un meccanismo di Rilassamento di Massa attraverso il trasporto parziale consente di escludere campioni con preferenze rumorose che confliggono con la coerenza semantica. Teoricamente, SelectiveRM mira a ottimizzare un limite superiore più stretto sulla vera ricompensa non osservata. Questa ricerca è documentata in arXiv:2605.06036v1.

Fatti principali

SelectiveRM è un framework basato sul trasporto ottimale per la modellazione delle ricompense.
Affronta il rumore nelle preferenze nei dataset RLHF.
La Discrepanza di Coerenza Congiunta allinea le previsioni del modello con i dati di preferenza.
Il meccanismo di Rilassamento di Massa utilizza il trasporto parziale per escludere campioni rumorosi.
Il metodo ottimizza un limite superiore più stretto sulla vera ricompensa.
Pubblicato come arXiv:2605.06036v1.
Gli obiettivi di addestramento convenzionali si adattano eccessivamente al rumore nei dati di preferenza.
Gli approcci di denoising esistenti assumono rumore omogeneo.

SelectiveRM: Trasporto Ottimale per la Modellazione delle Ricompense in LLM da Preferenze Rumorose

Fatti principali

Entità

Istituzioni

Fonti