Il Neural Tangent Kernel Rivela Caratteristiche Interpretabili nelle Reti Neurali
Un nuovo studio mostra che analizzando il kernel tangente neurale empirico (eNTK) è possibile identificare direzioni caratteristiche in reti neurali addestrate. La ricerca esamina tre casi: un MLP a uno strato che gestisce l'addizione modulare, un Transformer a uno strato anch'esso focalizzato sull'addizione modulare, e il modello linguistico preaddestrato Gemma-3-270M. In compiti legati all'aritmetica modulare, i principali autospazi dell'eNTK si allineano con le caratteristiche di Fourier utilizzate dai modelli, inclusi alcuni pattern di frequenza nel Transformer. Questo allineamento cambia durante l'addestramento, raggiungendo il picco poco prima dell'inizio della fase di grokking. Inoltre, le principali autodirezioni dell'eNTK per Gemma-3-270M sono state valutate utilizzando finestre di contesto di TinyStories e confrontate con caratteristiche generate automaticamente, supportando l'idea che l'analisi dell'eNTK scopra caratteristiche interpretabili nelle reti neurali.
Fatti principali
- L'analisi degli autovalori del kernel tangente neurale empirico (eNTK) può far emergere direzioni caratteristiche in reti neurali addestrate.
- Lo studio include un MLP a 1 strato addestrato sull'addizione modulare, un Transformer a 1 strato addestrato sull'addizione modulare e il modello linguistico preaddestrato Gemma-3-270M.
- I principali autospazi dell'eNTK si allineano con caratteristiche ground-truth o interpretabili in tutti e tre i contesti.
- Nell'aritmetica modulare, i principali autospazi dell'eNTK si allineano con le caratteristiche di Fourier utilizzate dall'MLP e dal Transformer.
- Il Transformer utilizza caratteristiche di Fourier a frequenze dipendenti dal seme per implementare algoritmi ground-truth noti.
- L'allineamento dei sottospazi rilevanti evolve durante l'addestramento, con la sua prima derivata che raggiunge il picco vicino all'inizio del grokking.
- Per Gemma-3-270M, le principali autodirezioni dell'eNTK sono state calcolate su un dataset di finestre di contesto di TinyStories.
- L'allineamento delle autodirezioni dell'eNTK con caratteristiche generate automaticamente è stato verificato per Gemma-3-270M.
Entità
—