reward-lens: Libreria Open-Source per l'Interpretabilità dei Modelli di Ricompensa

publication · 2026-04-30

I ricercatori hanno introdotto una nuova libreria open-source chiamata reward-lens, volta a migliorare gli strumenti di interpretabilità meccanicistica specificamente per i modelli di ricompensa nei modelli linguistici addestrati con apprendimento per rinforzo dal feedback umano (RLHF). I metodi tradizionali di interpretabilità, come logit lens e activation patching, sono stati progettati per modelli linguistici generativi che utilizzano il de-embedding del vocabolario. Tuttavia, queste tecniche risultano inadeguate per i modelli di ricompensa che hanno una testa di regressione scalare. La libreria reward-lens modifica questi metodi per una migliore applicabilità, concentrandosi sul vettore dei pesi della testa di ricompensa per chiarezza. Include funzionalità come un Reward Lens, attribuzione dei componenti e una suite per sondare il reward hacking, tra gli altri. Puoi consultare il relativo articolo su arXiv con ID 2604.26130.

Fatti principali

reward-lens è una libreria open-source per l'interpretabilità meccanicistica dei modelli di ricompensa.
Adatta strumenti come logit lens, activation patching e autoencoder sparsi ai modelli di ricompensa.
I modelli di ricompensa utilizzano una testa di regressione scalare invece del de-embedding del vocabolario.
La libreria è organizzata attorno al vettore dei pesi della testa di ricompensa come asse naturale di interpretabilità.
Include un Reward Lens, attribuzione dei componenti, activation patching a tre modalità e una suite per sondare il reward hacking.
Offre attribuzione delle feature TopK SAE e confronto tra modelli.
Fornisce cinque estensioni basate sulla teoria: indice di distorsione, patching consapevole della divergenza, rilevamento di cascate di disallineamento, analisi dei conflitti tra termini di ricompensa e analisi dei vettori concettuali.
L'articolo è pubblicato su arXiv con ID 2604.26130.

reward-lens: Libreria Open-Source per l'Interpretabilità dei Modelli di Ricompensa

Fatti principali

Entità

Istituzioni

Fonti