PREFINE: Ottimizzazione della Sicurezza Basata su Preferenze per Politiche di RL
I ricercatori hanno sviluppato PREFINE, un nuovo approccio volto a migliorare le politiche di apprendimento per rinforzo pre-addestrate integrando vincoli di costo attraverso dati di preferenza. A differenza del tradizionale RLHF, che si concentra sulle preferenze per risposte a prompt identici, PREFINE utilizza preferenze a livello di traiettoria in contesti di controllo continuo. Questo metodo modifica l'ottimizzazione diretta delle preferenze (DPO), comunemente applicata nella messa a punto di grandi modelli linguistici, per compiti decisionali sequenziali. Sfruttando una politica ottimizzata per la ricompensa insieme a un dataset limitato di traiettorie preferite (a basso costo) e non preferite (ad alto costo), PREFINE mette a punto la politica per incoraggiare azioni a basso costo mantenendo ricompense elevate. Questa tecnica elimina la necessità di un riaddestramento completo, fornendo così una soluzione efficiente per l'allineamento della sicurezza.
Fatti principali
- 1. PREFINE sta per Preference-based Implicit Reward and Cost Fine-Tuning for Safety Alignment.
- 2. Affronta l'allineamento della sicurezza nell'apprendimento per rinforzo incorporando vincoli di costo.
- 3. I costi sono forniti come preferenze anziché valori numerici.
- 4. Il metodo utilizza preferenze a livello di traiettoria in ambienti di controllo continuo.
- 5. Adatta l'ottimizzazione diretta delle preferenze (DPO) dalla messa a punto di LLM al processo decisionale sequenziale.
- 6. L'obiettivo è generare comportamenti a basso costo mantenendo ricompense elevate.
- 7. L'approccio evita di riaddestrare la politica da zero.
- 8. L'articolo è disponibile su arXiv con ID 2605.21225.
Entità
Istituzioni
- arXiv