Intervento Causale Riduce Molteplici Bias nei Modelli di Ricompensa
I ricercatori propongono un intervento causale al momento dell'inferenza per debiasare i modelli di ricompensa (RM) utilizzati per allineare i grandi modelli linguistici (LLM) alle preferenze umane. Il metodo identifica neuroni le cui attivazioni sono correlate con attributi di bias predefiniti, come la lunghezza della risposta, e sopprime questi segnali attraverso un intervento a livello neuronale. Valutato su benchmark RM, l'approccio riduce la sensibilità a molteplici caratteristiche spurie senza compromessi nelle prestazioni. Applicato a piccoli RM (2B e 7B parametri), la modifica di meno del 2% dei neuroni consente un miglioramento dell'annotazione delle preferenze. Il lavoro è dettagliato nel preprint arXiv 2604.27495.
Fatti principali
- I modelli di ricompensa sono sensibili a caratteristiche spurie come la lunghezza della risposta.
- I metodi esistenti di debiasing al momento dell'inferenza si concentrano solo sulla lunghezza della risposta e causano compromessi.
- Il metodo proposto utilizza un intervento causale a livello neuronale.
- I neuroni fortemente correlati con attributi di bias vengono identificati e soppressi.
- La valutazione mostra una ridotta sensibilità a diversi tipi di bias senza compromessi nelle prestazioni.
- Piccoli RM (2B e 7B) con il metodo modificano meno del 2% dei neuroni.
- Il metodo migliora l'annotazione delle preferenze per gli LLM.
- La ricerca è pubblicata su arXiv con ID 2604.27495.
Entità
Istituzioni
- arXiv