ARTFEED — Contemporary Art Intelligence

Pref-CTRL: Allineamento di LLM guidato dalle preferenze tramite modifica delle rappresentazioni

ai-technology · 2026-04-29

I ricercatori propongono Pref-CTRL, un nuovo metodo di allineamento al momento del test per modelli linguistici di grandi dimensioni che utilizza una funzione valore multi-obiettivo addestrata su dati di preferenza per modificare le rappresentazioni interne durante l'inferenza. A differenza del lavoro precedente RE-Control, che utilizza una singola funzione valore, Pref-CTRL cattura meglio la struttura pairwise delle preferenze umane tra risposte candidate. Il metodo supera RE-Control su due dataset di benchmark e mostra una migliore generalizzazione su dataset fuori dominio. Il codice sorgente è disponibile pubblicamente.

Fatti principali

  • Pref-CTRL è un metodo di allineamento al momento del test per LLM.
  • Utilizza una funzione valore multi-obiettivo addestrata su dati di preferenza.
  • Modifica le rappresentazioni interne durante l'inferenza.
  • Supera RE-Control su due dataset di benchmark.
  • Mostra una maggiore generalizzazione su dataset fuori dominio.
  • Il codice sorgente è disponibile.
  • L'articolo è su arXiv con ID 2604.23543.
  • RE-Control utilizza una singola funzione valore e modifica basata sul gradiente.

Entità

Istituzioni

  • arXiv

Fonti