I Vettori di Persona si Formano Precocemente nel Pretraining degli LLM
Un nuovo studio su arXiv traccia la formazione dei vettori di persona—direzioni lineari nelle attivazioni interne corrispondenti a comportamenti di alto livello come la sicofania—durante il pretraining di OLMo-3-7B. Questi vettori si formano entro lo 0,22% del pretraining e rimangono efficaci per guidare modelli instruct completamente post-addestrati. Sebbene le rappresentazioni fondamentali emergano precocemente, continuano a raffinarsi geometricamente e semanticamente durante tutto l'addestramento. La ricerca colma una lacuna nell'interpretabilità della sicurezza dell'IA, poiché i vettori di persona sono comunemente usati per ispezionare e guidare il comportamento del modello.
Fatti principali
- I vettori di persona si formano entro lo 0,22% del pretraining di OLMo-3.
- I vettori rimangono efficaci per guidare modelli instruct completamente post-addestrati.
- Le rappresentazioni fondamentali si raffinano geometricamente e semanticamente durante tutto l'addestramento.
- Lo studio colma una lacuna nell'interpretabilità della sicurezza dell'IA.
- I vettori di persona corrispondono a tratti come la malvagità o la sicofania.
- La ricerca utilizza il modello OLMo-3-7B.
- I risultati sono pubblicati su arXiv.
- I vettori sono direzioni lineari nelle attivazioni interne.
Entità
Istituzioni
- arXiv