ARTFEED — Contemporary Art Intelligence

I Vettori di Persona si Formano Precocemente nel Pretraining degli LLM

ai-technology · 2026-05-14

Un nuovo studio su arXiv traccia la formazione dei vettori di persona—direzioni lineari nelle attivazioni interne corrispondenti a comportamenti di alto livello come la sicofania—durante il pretraining di OLMo-3-7B. Questi vettori si formano entro lo 0,22% del pretraining e rimangono efficaci per guidare modelli instruct completamente post-addestrati. Sebbene le rappresentazioni fondamentali emergano precocemente, continuano a raffinarsi geometricamente e semanticamente durante tutto l'addestramento. La ricerca colma una lacuna nell'interpretabilità della sicurezza dell'IA, poiché i vettori di persona sono comunemente usati per ispezionare e guidare il comportamento del modello.

Fatti principali

  • I vettori di persona si formano entro lo 0,22% del pretraining di OLMo-3.
  • I vettori rimangono efficaci per guidare modelli instruct completamente post-addestrati.
  • Le rappresentazioni fondamentali si raffinano geometricamente e semanticamente durante tutto l'addestramento.
  • Lo studio colma una lacuna nell'interpretabilità della sicurezza dell'IA.
  • I vettori di persona corrispondono a tratti come la malvagità o la sicofania.
  • La ricerca utilizza il modello OLMo-3-7B.
  • I risultati sono pubblicati su arXiv.
  • I vettori sono direzioni lineari nelle attivazioni interne.

Entità

Istituzioni

  • arXiv

Fonti