Intervento Causale Riduce Molteplici Bias nei Modelli di Ricompensa

ai-technology · 2026-05-01

I ricercatori propongono un intervento causale al momento dell'inferenza per debiasare i modelli di ricompensa (RM) utilizzati per allineare i grandi modelli linguistici (LLM) alle preferenze umane. Il metodo identifica neuroni le cui attivazioni sono correlate con attributi di bias predefiniti, come la lunghezza della risposta, e sopprime questi segnali attraverso un intervento a livello neuronale. Valutato su benchmark RM, l'approccio riduce la sensibilità a molteplici caratteristiche spurie senza compromessi nelle prestazioni. Applicato a piccoli RM (2B e 7B parametri), la modifica di meno del 2% dei neuroni consente un miglioramento dell'annotazione delle preferenze. Il lavoro è dettagliato nel preprint arXiv 2604.27495.

Fatti principali

I modelli di ricompensa sono sensibili a caratteristiche spurie come la lunghezza della risposta.
I metodi esistenti di debiasing al momento dell'inferenza si concentrano solo sulla lunghezza della risposta e causano compromessi.
Il metodo proposto utilizza un intervento causale a livello neuronale.
I neuroni fortemente correlati con attributi di bias vengono identificati e soppressi.
La valutazione mostra una ridotta sensibilità a diversi tipi di bias senza compromessi nelle prestazioni.
Piccoli RM (2B e 7B) con il metodo modificano meno del 2% dei neuroni.
Il metodo migliora l'annotazione delle preferenze per gli LLM.
La ricerca è pubblicata su arXiv con ID 2604.27495.

Intervento Causale Riduce Molteplici Bias nei Modelli di Ricompensa

Fatti principali

Entità

Istituzioni

Fonti