Gli LLM apprendono in contesto tramite doppia codifica del grafo, non solo per riconoscimento di pattern
Un recente articolo su arXiv mette in discussione le teorie esistenti sui processi di apprendimento dei grandi modelli linguistici (LLM) in contesto. La ricerca utilizza un compito semplificato di cammino casuale che coinvolge due strutture grafiche contrastanti per indagare se gli LLM dipendono dalla corrispondenza di token recenti o dalla deduzione di strutture sottostanti. Gli autori forniscono prove causali che indicano che nessuna delle due spiegazioni è sufficiente da sola. L'analisi tramite ricostruzione PCA rivela che, a determinati rapporti di miscelazione, entrambe le strutture grafiche sono rappresentate simultaneamente in sottospazi principali ortogonali, contraddicendo l'idea di una semplice copia di transizioni locali. Metodi aggiuntivi, come il patching di attivazione del flusso residuo e lo steering per differenza di grafo, mostrano che il patching negli strati tardivi trasferisce quasi completamente la preferenza per il grafo pulito, mentre lo steering lineare sposta le previsioni nella direzione desiderata ma fallisce in condizioni di corrispondenza normativa. Questi risultati implicano che gli LLM eseguono un apprendimento del grafo in contesto monitorando la topologia globale insieme alle transizioni locali.
Fatti principali
- Titolo dell'articolo: Belief or Circuitry? Causal Evidence for In-Context Graph Learning
- Pubblicato su arXiv con ID 2605.08405
- Utilizza un compito di cammino casuale su grafo giocattolo con due strutture grafiche concorrenti
- La PCA rivela che entrambe le topologie di grafo sono codificate in sottospazi principali ortogonali a rapporti di miscelazione intermedi
- Il patching di attivazione del flusso residuo trasferisce la preferenza per il grafo pulito negli strati tardivi
- Lo steering per differenza di grafo sposta le previsioni nella direzione desiderata
- Lo steering fallisce in condizioni di corrispondenza normativa
- Né il riconoscimento di pattern né l'inferenza di struttura latente da soli spiegano l'apprendimento in contesto
Entità
Istituzioni
- arXiv