Nuovo framework minimizza i danni collaterali nello steering dell'attivazione degli LLM

ai-technology · 2026-05-06

Un nuovo studio su arXiv (2605.01167) formalizza e riduce i danni collaterali nello steering dell'attivazione per i modelli linguistici di grandi dimensioni (LLM). Lo steering dell'attivazione modifica il comportamento degli LLM intervenendo nelle rappresentazioni interne per allinearle con una direzione caratteristica target. Metodi standard come l'addizione vettoriale causano cambiamenti indesiderati in direzioni caratteristiche non target a causa di un'implicita assunzione di isotropia. Gli autori introducono un framework di ottimizzazione vincolata che trova una nuova attivazione minimizzando il cambiamento collaterale quadratico atteso, ponderato dalla matrice empirica dei secondi momenti delle attivazioni. Questa ponderazione non uniforme tiene conto dei costi di perturbazione variabili attraverso le direzioni caratteristiche, in contrasto con gli approcci isotropi. Il lavoro fornisce una formalizzazione matematica del danno collaterale e un metodo basato su principi per mitigarlo.

Fatti principali

Articolo arXiv 2605.01167
Lo steering dell'attivazione controlla il comportamento degli LLM intervenendo nelle rappresentazioni interne
L'addizione vettoriale standard causa danni collaterali in direzioni caratteristiche non target
Il danno collaterale è definito come cambiamenti di allineamento non intenzionali
I metodi standard assumono l'isotropia delle caratteristiche non target
Il nuovo metodo modella lo steering come ottimizzazione vincolata
Minimizza il cambiamento collaterale quadratico atteso ponderato dalla matrice dei secondi momenti
La ponderazione non uniforme codifica costi di perturbazione variabili

Nuovo framework minimizza i danni collaterali nello steering dell'attivazione degli LLM

Fatti principali

Entità

Istituzioni

Fonti