Gli LLM apprendono in contesto tramite doppia codifica del grafo, non solo per riconoscimento di pattern

ai-technology · 2026-05-12

Un recente articolo su arXiv mette in discussione le teorie esistenti sui processi di apprendimento dei grandi modelli linguistici (LLM) in contesto. La ricerca utilizza un compito semplificato di cammino casuale che coinvolge due strutture grafiche contrastanti per indagare se gli LLM dipendono dalla corrispondenza di token recenti o dalla deduzione di strutture sottostanti. Gli autori forniscono prove causali che indicano che nessuna delle due spiegazioni è sufficiente da sola. L'analisi tramite ricostruzione PCA rivela che, a determinati rapporti di miscelazione, entrambe le strutture grafiche sono rappresentate simultaneamente in sottospazi principali ortogonali, contraddicendo l'idea di una semplice copia di transizioni locali. Metodi aggiuntivi, come il patching di attivazione del flusso residuo e lo steering per differenza di grafo, mostrano che il patching negli strati tardivi trasferisce quasi completamente la preferenza per il grafo pulito, mentre lo steering lineare sposta le previsioni nella direzione desiderata ma fallisce in condizioni di corrispondenza normativa. Questi risultati implicano che gli LLM eseguono un apprendimento del grafo in contesto monitorando la topologia globale insieme alle transizioni locali.

Fatti principali

Titolo dell'articolo: Belief or Circuitry? Causal Evidence for In-Context Graph Learning
Pubblicato su arXiv con ID 2605.08405
Utilizza un compito di cammino casuale su grafo giocattolo con due strutture grafiche concorrenti
La PCA rivela che entrambe le topologie di grafo sono codificate in sottospazi principali ortogonali a rapporti di miscelazione intermedi
Il patching di attivazione del flusso residuo trasferisce la preferenza per il grafo pulito negli strati tardivi
Lo steering per differenza di grafo sposta le previsioni nella direzione desiderata
Lo steering fallisce in condizioni di corrispondenza normativa
Né il riconoscimento di pattern né l'inferenza di struttura latente da soli spiegano l'apprendimento in contesto

Gli LLM apprendono in contesto tramite doppia codifica del grafo, non solo per riconoscimento di pattern

Fatti principali

Entità

Istituzioni

Fonti