reward-lens: Libreria Open-Source per l'Interpretabilità dei Modelli di Ricompensa
I ricercatori hanno introdotto una nuova libreria open-source chiamata reward-lens, volta a migliorare gli strumenti di interpretabilità meccanicistica specificamente per i modelli di ricompensa nei modelli linguistici addestrati con apprendimento per rinforzo dal feedback umano (RLHF). I metodi tradizionali di interpretabilità, come logit lens e activation patching, sono stati progettati per modelli linguistici generativi che utilizzano il de-embedding del vocabolario. Tuttavia, queste tecniche risultano inadeguate per i modelli di ricompensa che hanno una testa di regressione scalare. La libreria reward-lens modifica questi metodi per una migliore applicabilità, concentrandosi sul vettore dei pesi della testa di ricompensa per chiarezza. Include funzionalità come un Reward Lens, attribuzione dei componenti e una suite per sondare il reward hacking, tra gli altri. Puoi consultare il relativo articolo su arXiv con ID 2604.26130.
Fatti principali
- reward-lens è una libreria open-source per l'interpretabilità meccanicistica dei modelli di ricompensa.
- Adatta strumenti come logit lens, activation patching e autoencoder sparsi ai modelli di ricompensa.
- I modelli di ricompensa utilizzano una testa di regressione scalare invece del de-embedding del vocabolario.
- La libreria è organizzata attorno al vettore dei pesi della testa di ricompensa come asse naturale di interpretabilità.
- Include un Reward Lens, attribuzione dei componenti, activation patching a tre modalità e una suite per sondare il reward hacking.
- Offre attribuzione delle feature TopK SAE e confronto tra modelli.
- Fornisce cinque estensioni basate sulla teoria: indice di distorsione, patching consapevole della divergenza, rilevamento di cascate di disallineamento, analisi dei conflitti tra termini di ricompensa e analisi dei vettori concettuali.
- L'articolo è pubblicato su arXiv con ID 2604.26130.
Entità
Istituzioni
- arXiv