Cinque righe di codice rivelano i dizionari semantici segreti dei LLM
Un recente studio pubblicato su arXiv (2605.22005) mostra che applicando la decomposizione ai valori singolari (SVD) alla matrice dei pesi lm_head dei grandi modelli linguistici basati su transformer (LLM) è possibile scoprire sottospazi semantici interpretabili direttamente dai pesi del modello, utilizzando solo cinque righe di codice PyTorch senza necessità di inferenza. Ogni vettore singolare sinistro evidenzia i token del vocabolario più probabili quando lo stato nascosto corrisponde alla direzione singolare, facendo luce sulla composizione e sulla filosofia di curation dei dati di addestramento. Gli autori hanno analizzato GPT-OSS-120B, Gemma-2-2B e Qwen2.5-1.5B, rivelando pattern distinti: GPT mostra una gerarchia strutturata di sottospazi differenziati; Gemma è influenzata dall'ortografia inglese pre-ottocentesca; Qwen offre una rappresentazione multilingue estesa. Questo approccio può rivelare pattern indesiderati nei dati di addestramento senza inferenza del modello.
Fatti principali
- Il metodo utilizza la SVD della matrice dei pesi lm_head
- Richiede solo cinque righe di codice PyTorch
- Nessuna inferenza del modello necessaria
- Applicato a GPT-OSS-120B, Gemma-2-2B, Qwen2.5-1.5B
- GPT mostra una gerarchia graduata di sottospazi
- Gemma dominata dall'ortografia inglese pre-ottocentesca
- Qwen presenta una copertura multilingue ampia
- Articolo disponibile su arXiv: 2605.22005
Entità
Istituzioni
- arXiv