PREFINE: Ottimizzazione della Sicurezza Basata su Preferenze per Politiche di RL

other · 2026-05-22

I ricercatori hanno sviluppato PREFINE, un nuovo approccio volto a migliorare le politiche di apprendimento per rinforzo pre-addestrate integrando vincoli di costo attraverso dati di preferenza. A differenza del tradizionale RLHF, che si concentra sulle preferenze per risposte a prompt identici, PREFINE utilizza preferenze a livello di traiettoria in contesti di controllo continuo. Questo metodo modifica l'ottimizzazione diretta delle preferenze (DPO), comunemente applicata nella messa a punto di grandi modelli linguistici, per compiti decisionali sequenziali. Sfruttando una politica ottimizzata per la ricompensa insieme a un dataset limitato di traiettorie preferite (a basso costo) e non preferite (ad alto costo), PREFINE mette a punto la politica per incoraggiare azioni a basso costo mantenendo ricompense elevate. Questa tecnica elimina la necessità di un riaddestramento completo, fornendo così una soluzione efficiente per l'allineamento della sicurezza.

Fatti principali

1. PREFINE sta per Preference-based Implicit Reward and Cost Fine-Tuning for Safety Alignment.
2. Affronta l'allineamento della sicurezza nell'apprendimento per rinforzo incorporando vincoli di costo.
3. I costi sono forniti come preferenze anziché valori numerici.
4. Il metodo utilizza preferenze a livello di traiettoria in ambienti di controllo continuo.
5. Adatta l'ottimizzazione diretta delle preferenze (DPO) dalla messa a punto di LLM al processo decisionale sequenziale.
6. L'obiettivo è generare comportamenti a basso costo mantenendo ricompense elevate.
7. L'approccio evita di riaddestrare la politica da zero.
8. L'articolo è disponibile su arXiv con ID 2605.21225.

PREFINE: Ottimizzazione della Sicurezza Basata su Preferenze per Politiche di RL

Fatti principali

Entità

Istituzioni

Fonti