Geometria Spettrale del Flusso Residuo dei Transformer Rivela un Collasso Dimensionale Appreso
Un recente articolo di ricerca da arXiv (2605.14258) conduce una completa eigendecomposizione Jacobiana su tre LLM su larga scala, scoprendo un gradiente spettrale coerente che passa da strati iniziali non normali e centrati sulla rotazione a strati finali quasi simmetrici. Inoltre, identifica un collo di bottiglia a basso rango cumulativo che incanala le perturbazioni in un numero limitato di dimensioni effettive all'interno del flusso residuo. I risultati indicano che sia il gradiente spettrale che il collasso dimensionale sono acquisiti attraverso l'apprendimento piuttosto che essere inerenti all'architettura, fornendo approfondimenti sulle dinamiche del calcolo mentre si muove attraverso gli strati del transformer.
Fatti principali
- Completa eigendecomposizione Jacobiana eseguita su tre LLM su scala produttiva
- L'addestramento installa un gradiente spettrale monotono da strati iniziali non normali a strati finali quasi simmetrici
- Collo di bottiglia a basso rango cumulativo riduce le dimensioni effettive del flusso residuo
- Gradiente spettrale e collasso dimensionale sono appresi, non architetturali
- Tratta la profondità come tempo discreto e il flusso residuo come sistema dinamico
- Analisi precedenti si basavano su riassunti scalari o linearizzazioni approssimate
- Preprint arXiv 2605.14258
- Tipo di annuncio: cross
Entità
Istituzioni
- arXiv