La minimizzazione dell'energia causale ridefinisce la progettazione dei layer Transformer
Esiste un nuovo framework chiamato Minimizzazione dell'Energia Causale, o CEM, che reinterpreta i layer Transformer come processi focalizzati sull'ottimizzazione di funzioni energetiche, enfatizzando in particolare come i layer sono parametrizzati. Questo si basa su precedenti prospettive energetiche dell'attenzione, mostrando che l'attenzione multi-testa con pesi condivisi può essere vista come un modo per regolare i gradienti sull'energia di interazione. Inoltre, un MLP con gate e proiezioni condivise può essere compreso attraverso un framework energetico elemento per elemento. CEM apre possibilità per progetti che coinvolgono la condivisione dei pesi all'interno del layer e precondizionatori leggeri. Questi layer derivati da CEM sono stati testati su compiti di modellazione del linguaggio con circa cento milioni di parametri. Puoi trovare l'articolo completo su arXiv con l'identificatore 2605.07588.
Fatti principali
- 1. Viene introdotta la Minimizzazione dell'Energia Causale (CEM) come framework per i layer Transformer.
- 2. CEM reinterpreta i layer Transformer come passi di ottimizzazione su funzioni energetiche condizionali.
- 3. L'attenzione multi-testa con pesi condivisi è derivata come un aggiornamento del gradiente su un'energia di interazione.
- 4. Il MLP con gate e proiezioni up/down condivise è visto attraverso un'energia elemento per elemento.
- 5. Lo spazio di progettazione include condivisione dei pesi all'interno del layer, interazioni diagonali-plus-low-rank, precondizionatori leggeri e aggiornamenti ricorsivi.
- 6. I layer derivati da CEM sono valutati in esperimenti di modellazione del linguaggio a scala moderata di centinaia di milioni di parametri.
- 7. L'articolo è pubblicato su arXiv con ID 2605.07588.
- 8. L'approccio estende precedenti interpretazioni basate sull'energia dell'attenzione.
Entità
Istituzioni
- arXiv