Pref-CTRL: Allineamento di LLM guidato dalle preferenze tramite modifica delle rappresentazioni
I ricercatori propongono Pref-CTRL, un nuovo metodo di allineamento al momento del test per modelli linguistici di grandi dimensioni che utilizza una funzione valore multi-obiettivo addestrata su dati di preferenza per modificare le rappresentazioni interne durante l'inferenza. A differenza del lavoro precedente RE-Control, che utilizza una singola funzione valore, Pref-CTRL cattura meglio la struttura pairwise delle preferenze umane tra risposte candidate. Il metodo supera RE-Control su due dataset di benchmark e mostra una migliore generalizzazione su dataset fuori dominio. Il codice sorgente è disponibile pubblicamente.
Fatti principali
- Pref-CTRL è un metodo di allineamento al momento del test per LLM.
- Utilizza una funzione valore multi-obiettivo addestrata su dati di preferenza.
- Modifica le rappresentazioni interne durante l'inferenza.
- Supera RE-Control su due dataset di benchmark.
- Mostra una maggiore generalizzazione su dataset fuori dominio.
- Il codice sorgente è disponibile.
- L'articolo è su arXiv con ID 2604.23543.
- RE-Control utilizza una singola funzione valore e modifica basata sul gradiente.
Entità
Istituzioni
- arXiv