Pref-CTRL: Allineamento di LLM guidato dalle preferenze tramite modifica delle rappresentazioni

ai-technology · 2026-04-29

I ricercatori propongono Pref-CTRL, un nuovo metodo di allineamento al momento del test per modelli linguistici di grandi dimensioni che utilizza una funzione valore multi-obiettivo addestrata su dati di preferenza per modificare le rappresentazioni interne durante l'inferenza. A differenza del lavoro precedente RE-Control, che utilizza una singola funzione valore, Pref-CTRL cattura meglio la struttura pairwise delle preferenze umane tra risposte candidate. Il metodo supera RE-Control su due dataset di benchmark e mostra una migliore generalizzazione su dataset fuori dominio. Il codice sorgente è disponibile pubblicamente.

Fatti principali

Pref-CTRL è un metodo di allineamento al momento del test per LLM.
Utilizza una funzione valore multi-obiettivo addestrata su dati di preferenza.
Modifica le rappresentazioni interne durante l'inferenza.
Supera RE-Control su due dataset di benchmark.
Mostra una maggiore generalizzazione su dataset fuori dominio.
Il codice sorgente è disponibile.
L'articolo è su arXiv con ID 2604.23543.
RE-Control utilizza una singola funzione valore e modifica basata sul gradiente.

Pref-CTRL: Allineamento di LLM guidato dalle preferenze tramite modifica delle rappresentazioni

Fatti principali

Entità

Istituzioni

Fonti