L'Analisi di Fourier Rivela la Generalizzazione nei Transformer
Uno studio recente esplora la generalizzazione dei transformer nei domini booleani esaminando gli spettri di Fourier delle funzioni target. In contrasto con ricerche precedenti che utilizzavano la complessità di Rademacher, questo studio impiega la teoria PAC-Bayes per stabilire limiti di generalizzazione. I risultati rivelano che spettri sparsi focalizzati su componenti a basso grado facilitano costruzioni a bassa nitidezza che mostrano una forte generalizzazione. Questa costruzione mostra minimi piatti in grado di implementare qualsiasi funzione booleana con una sparsità non superiore alla lunghezza del contesto. Inoltre, un limite PAC-Bayes applicato a un apprendista idealizzato a bassa nitidezza produce un limite di generalizzazione significativo. Valutazioni empiriche e interpretabilità meccanicistica convalidano la rilevanza pratica della costruzione teorica nei transformer reali.
Fatti principali
- Lo studio si concentra sul comportamento di generalizzazione dei transformer nei domini booleani.
- Utilizza gli spettri di Fourier delle funzioni target.
- Contrasta con lavori precedenti di Edelman et al. (2022) e Trauger e Tewari (2024).
- Deriva limiti di generalizzazione tramite la teoria PAC-Bayes.
- Spettri sparsi su componenti a basso grado consentono costruzioni a bassa nitidezza.
- Minimi piatti possono implementare qualsiasi funzione booleana con sparsità ≤ lunghezza del contesto.
- Il limite PAC-Bayes produce un limite di generalizzazione non vacuo.
- Valutazioni empiriche e interpretabilità meccanicistica supportano la costruzione.
Entità
Istituzioni
- arXiv