Rappresentazioni Proiettate su Ancoraggio Consentono il Trasferimento dell'Asse Comportamentale tra Modelli

ai-technology · 2026-05-12

Un nuovo framework chiamato anchor-projection consente di trasferire direzioni comportamentali tra diverse famiglie di modelli linguistici di grandi dimensioni senza necessità di fine-tuning. Il metodo mappa le rappresentazioni nascoste in uno spazio di coordinate di ancoraggio condiviso (ACS), dove le direzioni canoniche vengono mediate e ricostruite in nuovi modelli. Valutato su cinque famiglie istruite (Llama, Qwen, Mistral, Phi e altre) lungo dieci assi comportamentali, l'approccio mostra un allineamento stretto all'interno del cluster LQMP, raggiungendo una precisione di rilevamento a dieci vie dello 0,83 su target esclusi. L'articolo è pubblicato su arXiv come preprint 2605.09875.

Fatti principali

Il framework anchor-projection mappa le rappresentazioni nascoste in uno spazio di coordinate di ancoraggio condiviso (ACS).
Le direzioni comportamentali dei modelli sorgente vengono proiettate in ACS e mediate in una direzione canonica.
Per un nuovo modello, la direzione canonica viene ricostruita utilizzando solo le attivazioni di ancoraggio, senza fine-tuning.
Valutato su cinque famiglie di modelli istruiti: Llama, Qwen, Mistral, Phi e altre.
Sono stati testati dieci assi comportamentali.
Le direzioni dello stesso asse si allineano strettamente all'interno del cluster LQMP (Llama, Qwen, Mistral, Phi) in ACS.
I target esclusi hanno raggiunto una precisione di rilevamento a dieci vie dello 0,83 per il cluster LQMP allineato.
L'articolo è disponibile su arXiv con ID 2605.09875.

Rappresentazioni Proiettate su Ancoraggio Consentono il Trasferimento dell'Asse Comportamentale tra Modelli

Fatti principali

Entità

Istituzioni

Fonti