ARTFEED — Contemporary Art Intelligence

Processo di Ragionamento dei LLM Rivelato tramite Analisi dei Layer di Attenzione

ai-technology · 2026-05-23

Un nuovo studio su arXiv (2603.29735v2) indaga come i grandi modelli linguistici passano da informazioni a livello di token a strutture relazionali astratte durante il ragionamento. Analizzando i layer e le teste di attenzione nel ragionamento autoregressivo, i ricercatori hanno scoperto una coerente divisione del lavoro tra i layer: i layer esterni preservano e instradano le caratteristiche relative all'input, mentre i layer intermedi le riorganizzano in rappresentazioni a livello di regole trasferibili. Ciò è supportato dalla geometria delle rappresentazioni, che mostra che gli stati dei layer intermedi occupano varietà a dimensione inferiore e si allineano tra vocabolari disgiunti con le stesse regole simboliche. Interventi causali confermano che la rimozione di componenti dei layer intermedi causa cambiamenti maggiori a valle. L'articolo si concentra su compiti di ragionamento matematico e simbolico.

Fatti principali

  • Lo studio analizza i layer e le teste di attenzione nei LLM durante il ragionamento
  • I layer esterni preservano le caratteristiche dell'input; i layer intermedi le riorganizzano in rappresentazioni a livello di regole
  • Gli stati dei layer intermedi occupano varietà a dimensione inferiore
  • I layer intermedi mostrano un allineamento più forte tra vocabolari disgiunti con le stesse regole simboliche
  • La rimozione di componenti dei layer intermedi causa cambiamenti maggiori a valle
  • I compiti includono ragionamento matematico e simbolico
  • L'articolo è arXiv:2603.29735v2
  • La ricerca indaga lo stadio interno in cui le informazioni sui token diventano struttura relazionale astratta

Entità

Istituzioni

  • arXiv

Fonti