Nuovo framework minimizza i danni collaterali nello steering dell'attivazione degli LLM
Un nuovo studio su arXiv (2605.01167) formalizza e riduce i danni collaterali nello steering dell'attivazione per i modelli linguistici di grandi dimensioni (LLM). Lo steering dell'attivazione modifica il comportamento degli LLM intervenendo nelle rappresentazioni interne per allinearle con una direzione caratteristica target. Metodi standard come l'addizione vettoriale causano cambiamenti indesiderati in direzioni caratteristiche non target a causa di un'implicita assunzione di isotropia. Gli autori introducono un framework di ottimizzazione vincolata che trova una nuova attivazione minimizzando il cambiamento collaterale quadratico atteso, ponderato dalla matrice empirica dei secondi momenti delle attivazioni. Questa ponderazione non uniforme tiene conto dei costi di perturbazione variabili attraverso le direzioni caratteristiche, in contrasto con gli approcci isotropi. Il lavoro fornisce una formalizzazione matematica del danno collaterale e un metodo basato su principi per mitigarlo.
Fatti principali
- Articolo arXiv 2605.01167
- Lo steering dell'attivazione controlla il comportamento degli LLM intervenendo nelle rappresentazioni interne
- L'addizione vettoriale standard causa danni collaterali in direzioni caratteristiche non target
- Il danno collaterale è definito come cambiamenti di allineamento non intenzionali
- I metodi standard assumono l'isotropia delle caratteristiche non target
- Il nuovo metodo modella lo steering come ottimizzazione vincolata
- Minimizza il cambiamento collaterale quadratico atteso ponderato dalla matrice dei secondi momenti
- La ponderazione non uniforme codifica costi di perturbazione variabili
Entità
Istituzioni
- arXiv