ARTFEED — Contemporary Art Intelligence

Cinque righe di codice rivelano i dizionari semantici segreti dei LLM

ai-technology · 2026-05-26

Un recente studio pubblicato su arXiv (2605.22005) mostra che applicando la decomposizione ai valori singolari (SVD) alla matrice dei pesi lm_head dei grandi modelli linguistici basati su transformer (LLM) è possibile scoprire sottospazi semantici interpretabili direttamente dai pesi del modello, utilizzando solo cinque righe di codice PyTorch senza necessità di inferenza. Ogni vettore singolare sinistro evidenzia i token del vocabolario più probabili quando lo stato nascosto corrisponde alla direzione singolare, facendo luce sulla composizione e sulla filosofia di curation dei dati di addestramento. Gli autori hanno analizzato GPT-OSS-120B, Gemma-2-2B e Qwen2.5-1.5B, rivelando pattern distinti: GPT mostra una gerarchia strutturata di sottospazi differenziati; Gemma è influenzata dall'ortografia inglese pre-ottocentesca; Qwen offre una rappresentazione multilingue estesa. Questo approccio può rivelare pattern indesiderati nei dati di addestramento senza inferenza del modello.

Fatti principali

  • Il metodo utilizza la SVD della matrice dei pesi lm_head
  • Richiede solo cinque righe di codice PyTorch
  • Nessuna inferenza del modello necessaria
  • Applicato a GPT-OSS-120B, Gemma-2-2B, Qwen2.5-1.5B
  • GPT mostra una gerarchia graduata di sottospazi
  • Gemma dominata dall'ortografia inglese pre-ottocentesca
  • Qwen presenta una copertura multilingue ampia
  • Articolo disponibile su arXiv: 2605.22005

Entità

Istituzioni

  • arXiv

Fonti