UNLOCK: Trasferimento di Capacità tra Modelli Senza Addestramento tramite Allineamento di Sottospazi Lineari
Un recente studio pubblicato su arXiv presenta l'Ipotesi della Chiave Maestra, secondo cui le capacità dei modelli sono collegate a direzioni specifiche all'interno di un sottospazio latente a bassa dimensionalità, consentendo il trasferimento tra modelli tramite allineamento lineare. I ricercatori hanno sviluppato UNLOCK, un framework che non richiede né addestramento né etichette, che identifica una direzione di capacità confrontando le attivazioni di varianti sorgente con e senza la capacità. Questa direzione viene quindi allineata con un modello target utilizzando una trasformazione lineare a basso rango e sfruttata durante l'inferenza. Test su compiti di ragionamento, come il Chain-of-Thought (CoT) e il ragionamento matematico, dimostrano miglioramenti significativi su varie scale di modelli senza necessità di addestramento. L'articolo è disponibile su arXiv:2604.06377.
Fatti principali
- 1. L'Ipotesi della Chiave Maestra afferma che le capacità dei modelli corrispondono a direzioni in un sottospazio latente a bassa dimensionalità.
- 2. UNLOCK è un framework senza addestramento e senza etichette per il trasferimento di capacità tra modelli.
- 3. Estrae la direzione di capacità confrontando le attivazioni tra varianti sorgente con e senza la capacità.
- 4. L'allineamento con il modello target utilizza una trasformazione lineare a basso rango.
- 5. Gli esperimenti su comportamenti di ragionamento includono Chain-of-Thought (CoT) e ragionamento matematico.
- 6. I miglioramenti sono dimostrati su diverse scale di modelli senza addestramento.
- 7. L'articolo è pubblicato su arXiv con ID 2604.06377.
- 8. L'approccio viene applicato al momento dell'inferenza per elicitare comportamenti specifici.
Entità
Istituzioni
- arXiv