Cinque righe di codice rivelano i dizionari semantici segreti dei LLM

ai-technology · 2026-05-26

Un recente studio pubblicato su arXiv (2605.22005) mostra che applicando la decomposizione ai valori singolari (SVD) alla matrice dei pesi lm_head dei grandi modelli linguistici basati su transformer (LLM) è possibile scoprire sottospazi semantici interpretabili direttamente dai pesi del modello, utilizzando solo cinque righe di codice PyTorch senza necessità di inferenza. Ogni vettore singolare sinistro evidenzia i token del vocabolario più probabili quando lo stato nascosto corrisponde alla direzione singolare, facendo luce sulla composizione e sulla filosofia di curation dei dati di addestramento. Gli autori hanno analizzato GPT-OSS-120B, Gemma-2-2B e Qwen2.5-1.5B, rivelando pattern distinti: GPT mostra una gerarchia strutturata di sottospazi differenziati; Gemma è influenzata dall'ortografia inglese pre-ottocentesca; Qwen offre una rappresentazione multilingue estesa. Questo approccio può rivelare pattern indesiderati nei dati di addestramento senza inferenza del modello.

Fatti principali

Il metodo utilizza la SVD della matrice dei pesi lm_head
Richiede solo cinque righe di codice PyTorch
Nessuna inferenza del modello necessaria
Applicato a GPT-OSS-120B, Gemma-2-2B, Qwen2.5-1.5B
GPT mostra una gerarchia graduata di sottospazi
Gemma dominata dall'ortografia inglese pre-ottocentesca
Qwen presenta una copertura multilingue ampia
Articolo disponibile su arXiv: 2605.22005

Cinque righe di codice rivelano i dizionari semantici segreti dei LLM

Fatti principali

Entità

Istituzioni

Fonti