Rappresentazioni Proiettate su Ancoraggio Consentono il Trasferimento dell'Asse Comportamentale tra Modelli
Un nuovo framework chiamato anchor-projection consente di trasferire direzioni comportamentali tra diverse famiglie di modelli linguistici di grandi dimensioni senza necessità di fine-tuning. Il metodo mappa le rappresentazioni nascoste in uno spazio di coordinate di ancoraggio condiviso (ACS), dove le direzioni canoniche vengono mediate e ricostruite in nuovi modelli. Valutato su cinque famiglie istruite (Llama, Qwen, Mistral, Phi e altre) lungo dieci assi comportamentali, l'approccio mostra un allineamento stretto all'interno del cluster LQMP, raggiungendo una precisione di rilevamento a dieci vie dello 0,83 su target esclusi. L'articolo è pubblicato su arXiv come preprint 2605.09875.
Fatti principali
- Il framework anchor-projection mappa le rappresentazioni nascoste in uno spazio di coordinate di ancoraggio condiviso (ACS).
- Le direzioni comportamentali dei modelli sorgente vengono proiettate in ACS e mediate in una direzione canonica.
- Per un nuovo modello, la direzione canonica viene ricostruita utilizzando solo le attivazioni di ancoraggio, senza fine-tuning.
- Valutato su cinque famiglie di modelli istruiti: Llama, Qwen, Mistral, Phi e altre.
- Sono stati testati dieci assi comportamentali.
- Le direzioni dello stesso asse si allineano strettamente all'interno del cluster LQMP (Llama, Qwen, Mistral, Phi) in ACS.
- I target esclusi hanno raggiunto una precisione di rilevamento a dieci vie dello 0,83 per il cluster LQMP allineato.
- L'articolo è disponibile su arXiv con ID 2605.09875.
Entità
Istituzioni
- arXiv