I Vettori di Persona si Formano Precocemente nel Pretraining degli LLM

ai-technology · 2026-05-14

Un nuovo studio su arXiv traccia la formazione dei vettori di persona—direzioni lineari nelle attivazioni interne corrispondenti a comportamenti di alto livello come la sicofania—durante il pretraining di OLMo-3-7B. Questi vettori si formano entro lo 0,22% del pretraining e rimangono efficaci per guidare modelli instruct completamente post-addestrati. Sebbene le rappresentazioni fondamentali emergano precocemente, continuano a raffinarsi geometricamente e semanticamente durante tutto l'addestramento. La ricerca colma una lacuna nell'interpretabilità della sicurezza dell'IA, poiché i vettori di persona sono comunemente usati per ispezionare e guidare il comportamento del modello.

Fatti principali

I vettori di persona si formano entro lo 0,22% del pretraining di OLMo-3.
I vettori rimangono efficaci per guidare modelli instruct completamente post-addestrati.
Le rappresentazioni fondamentali si raffinano geometricamente e semanticamente durante tutto l'addestramento.
Lo studio colma una lacuna nell'interpretabilità della sicurezza dell'IA.
I vettori di persona corrispondono a tratti come la malvagità o la sicofania.
La ricerca utilizza il modello OLMo-3-7B.
I risultati sono pubblicati su arXiv.
I vettori sono direzioni lineari nelle attivazioni interne.

I Vettori di Persona si Formano Precocemente nel Pretraining degli LLM

Fatti principali

Entità

Istituzioni

Fonti